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O”Reilly Media, Inc. 介 绍 


O'Reilly “Media 通 过 图 书 、 杂 志 、 在 线 服务 、 调 查 研 究 和 会 议 等 方式 传 
播 创新 知识 。 自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推 
动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋势 

通过 放大 那些 “细微 的 信号 ?来 刺激 社会 对 新 科技 的 应 用 。 作 为 技术 
人 
Zi 


O’Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”， 创建 第 一 个 商业 网 站 
(GNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运动 以 
此 命名 ; 创立 了 Make 杂 志 ， 从 而 成 为 DIY 章 命 的 主要 先锋 ; 公司 一 如 既 
往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。O"'Reilly 的 会 议和 峰会 集聚 了 
众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革命 性 
思想 。 作 为 技术 人 士 获取 信息 的 选择 ，O"'Reily 现 在 还 将 先锋 专家 的 知 
识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服 务 或 者 面授 
读 程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信息 是 
激发 创 新 的 力量 。 





























业界 评论 
“O’”Reilly Radar 博 客 有 口 儿 人 碑 。” 
Wired 


“O”Reilly 和 凭借 一 系列 (真希 望 当初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 
万 美元 的 业务 。?” 





Business 2.0 





“O”Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
一 CRN 


“一 本 O?Reilly 的 书 就 代表 一 个 有 用 、 有 有 前途、 需要 学 习 的 主题 。” 
Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 
切实 地 按照 Yogi Berra 的 建议 去 做 了 : “如果 你 在 路 上 遇 到 岔路 口 ， 走 
小 路 《〈 盆 路) 。”? 回 顾 过 去 Tim 似 乎 每 一 次 都 选择 了 人 小路， 而且 有 几 次 
都 是 一 内 即 逝 的 机 会 ， 尽 管 大 路 也 不 错 。?” 











Linux Journal 





厅 


10 年 前 ， 没 人 能 预见 互联 网 的 发 展会 给 关系 型 数据 库 市 来 如 此 多 的 挑 
成 。 在 此 期 间 ， 我 杀身 经 历 了 在 快速 发 展 的 大 型 互联 网 公司 应 用 
MySQL 的 过 程 。 开 始 时 只 有 很 少 的 数据 ， 一 侣 服务器 就 可 以 了 。 人 然后 
就 得 建立 备份 ， 以 便 应 对 大 量 的 读 取 和 不 时 的 宕 机 。 用 不 了 多 长 时 间 ， 
就 得 加 一 个 缓存 层 ， 调 整 所 有 的 查询 ， 投 入 更 多 的 硬件 。 


最 后 ， 你 会 发 现 目 己 需要 将 数据 切 分 到 多 个 集群 上 ， 并 重新 构建 大 量 的 
应 用 逻辑 以 适应 这 种 切 分 。 之 后 不 久 ， 你 又 会 发 现 被 目 己 数 月 前 设计 的 
数据 库 结构 限制 住 了 。 


怎么 会 呢 ? 这 是 因为 现在 集群 中 的 数据 太 多 ， 需 要 更 改 模式 ， 会 花费 很 
长 时 间 ， 也 需要 DBA 投 入 相当 多 的 宝贵 时 间 。 在 代码 中 处 理 要 简单 一 
些 ， 但 也 需要 小 型 开发 团队 数 月 的 努力 。 最 后 ， 你 会 不 断 地 拷问 自己 有 
0 
功能 。 


为 了 应 对 现在 Web 应 用 的 数据 膨胀 ， 开 源 社区 像 以 往 一 样 提供 了 太 多 
的 “好 方法 ”。 从 内 存 中 的 键 值 型 存储 到 可 以 使 用 SQL 的 MySQL/InnoDB 
变种 等 复杂 方法 ， 无 所 不 有 。 但 选择 多 了 ， 做 出 正确 的 选择 反而 更 难 
了 。 我 自己 就 研究 过 其 中 很 多 种 。 


MongoDB 的 实用 性 着 实 令 人 着 迷 。MongoDB 并 不 去 迎合 所 有 人 的 全 部 
需求 。 它 在 功能 和 复杂 性 之 间 取 得 了 很 好 的 平衡 ， 并 且 大 大 简化 了 原先 
十 分 复杂 的 任务 。 也 就 是 说 ， 它 具备 文 撑 今天 主流 Web 应 用 的 关键 功 

能 : 索引 、 复 制 、 分 片 、 丰 宣 的 查询 语法 ， 特 别 灵 活 的 数据 模型 。 与 此 
同时 还 不 牺牲 速度 。 


秉持 MongoDB 上 自身 的 风格 ， 本 书简 洁 明 快 、 通 众 易 懂 。MongoDB 新 用 
户 通过 阅读 第 1 章 ， 马 上 就 能 入 门 ， 而 有 经 验 的 用 户 则 可 以 体验 到 本 书 
的 广度 和 权威 性 。 对 于 流行 的 客户 端 API 和 局 级 的 省 理 主题 ， 如 复制 、 
备份 和 分 片 ， 本 书 都 是 权威 参考 。 


根据 我 最 近 每 天 使 用 MongoDB 的 经 验 ， 我 相信 本 书 会 始终 不 离 我 左 
右 ， 从 最 初 安装 到 进行 分 片 或 备份 式 集群 的 产品 化 部 车 ， 它 都 是 我 最 好 
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es 任何 想 仔细 研究 使 用 MongoDB 的 人 都 需要 这 本 重要 的 参考 


Craigslist 软 件 工 程 师 ，Jeremy Zawodny 
2010 年 8 月 
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月 吾 
本 书 的 组 织 结构 


本 书 分 为 六 个 部 分 ， 涵 盖 了 开发 、 管 理 以 及 部 署 的 方方面面 。 
熟悉 MongoDB 


第 1 章 将 简要 讲述 MongoDB 的 背景 : 项 目 创 立 原 因 ， 和 希望 达到 的 目标 ， 
选用 它 的 理由 。 第 2 章 接着 介绍 一 些 MongoDB 的 核心 概念 和 术语 ， 还 有 
如 何 上 手 操作 数据 库 和 shell 的 相关 内 容 。 接 下 来 两 童 介 绍 MongoDB 开 发 
者 需要 掌握 的 基础 知识 。 第 3 章 展 示 如 何 执行 基本 的 写 入 操作 ， 包 括 在 
不 同安 全 和 速度 等 级 下 的 实现 细节 。 第 4 章 主 要 介绍 如 何 查 找 文档 和 创 
建 复杂 的 查询 。 这 一 章 还 包括 如 何 迭 代 结 果 和 集 和 其 他 一 些 用 于 处 理 结果 
ns 比如 限制 结果 集 的 数量 ， 略 过 一 些 结果 ， 以 及 对 结果 集 排 
子 。 


使 用 MongoDB 进 行 开 发 


第 5 章 将 介绍 什么 是 索引 以 及 如 何 为 MongoDB 的 集合 建立 索引 。 第 6 章 
说 明 如 何 使 用 各 种 特殊 类 型 的 索引 和 和 集合。 第 7 半 展 示 了 一 些 利用 
MongoDB 有 聚集 数据 的 方法 ， 包 括 计数 、 仁 找 唯 一 值 、 文 档 分 组 、 有 聚合 
框架 和 MapReduce。 这 一 部 分 的 最 后 一 半 会 介绍 如 何 设计 应 用 程 厅 :第 
8 章 讲 述 如 何 更 好 地 在 应 用 程序 中 使 用 MongoDB。 


复制 
第 9 音 开 始 介绍 复制 ， 着 重 讲述 如 何 快速 在 本 地 建立 一 个 副本 集 ， 还 会 


介绍 一 些 可 用 选项 。 第 10 章 池 凋 了 与 副本 集 相 关 的 一 些 概 念 。 第 11 章 展 
示 了 副本 集 与 应 用 程序 的 交互 。 第 12 章 从 管理 的 角度 介绍 副本 集 的 运 
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们 
分 片 
第 13 章 开始 介绍 分 片 ， 并 通过 一 个 例子 展示 如 何 快速 地 在 本 地 进行 分 





片 。 第 14 章 介绍 集群 的 组 成 以 及 设置 。 第 15 章 介绍 如 何 为 不 同 的 应 用 程 
序 选 择 合适 的 片 键 。 最 后 ， 第 16 章 介绍 分 片 集群 的 管理 。 


应 用 程序 管理 


接 下 来 两 章 从 应 用 程序 的 角度 介绍 MongoDB 管 理 的 很 多 方面 。 第 17 章 
讲述 如 何 查 看 MongoDB 正 在 进行 的 操作 。 第 18 章 介绍 一 些 管理 任务 ， 
比如 创建 索引 、 移 动 和 压缩 数据 。 第 19 章 介绍 MongoDB 的 持久 数据 存 
储 。 


服务 器 管理 


最 后 一 部 分 集中 介绍 服务 器 管理 。 第 20 章 将 给 出 局 动 和 终止 MongoDB 
时 的 一 些 通 用 选项 。 第 21 章 讨论 在 监控 数据 库 运 行 时 如 何 碍 看 监控 信 
恩 。 第 22 芋 介绍 在 不 同类 型 的 部 署 中 如 何 备 份 和 恢复 数据 库 。 最 后 ， 第 
23 章 将 介绍 部 普 MongoDB 时 需要 牢记 于 心 的 一 些 系统 设置 。 


附录 
附录 A 介 绍 了 MongoDB 的 版 本 控制 方案 ， 以 及 在 Windows、OS X 和 


Linux 上 的 安装 细节 。 附 录 B 详 细 说 明了 MongoDB 的 内 部 工作 原理 : 存 
储 引 擎 、 数 据 格式 和 传输 协议 。 


























本 书 排版 规范 


本 书 使 用 的 排版 规范 如 下 所 示 。 


。 楷体 用 于 表示 新 的 术语 。 


。 等 宽 字体 ， 表示 程 序 片段， 也 在 段落 中 表示 程序 中 使 用 的 变量 、 函 
数 名 、 命 令 行 实用 工具 、 环 境 变量 、 语 句 和 关键 字 等 元 素 。 


。 等 宽 和 斜体 用户 需 要 根据 自己 提供 的 值 或 由 上 下 文 确定 的 值 进行 更 
改 的 部 分 。 


3 3, 














A 
te 
这 个 图 标 代表 小 窃 门 、 建 议 或 者 注意 。 


-全 es 


使 用 代码 示例 


让 本 书 助 你 一 臂 之 力 。 也 许 你 要 在 自己 的 程序 或 文档 中 用 到 本 书 中 的 代 
码 。 除 非 大 段 大 段 地 使 用 ， 人 否则 不 必 与 我 们 联系 取得 授权 。 例 如 ， 无 需 
请 求 许可 ， 融 可 以 用 本 书 中 的 几 段 代码 写成 一 个 程序 。 但 是 销售 或 者 发 
布 OReilly 图 书 中 代码 的 光盘 则 必须 事先 获得 授权 。 引 用 书 中 的 代码 来 
回答 问题 也 无 需 授 权 。 将 大 段 的 示例 代码 整合 到 你 目 己 的 产品 文档 中 则 
必须 经 过 许可 。 


我 们 非常 感谢 你 能 标明 出 处 ， 但 并 不 强求 。 出 处 一 般 包括 书 名 、 作 者 、 
出 版 商 和 ISBN， 例 如 《MongoDB 权 威 指南 〈 第 2 版 ) 》，Kristina 
Chodorow 著 (O'Reilly，2013) 。 版 权 所 有 ，978-1-449-34468-9。 


如 果 有 关于 使 用 代码 的 未 尽 事宜 ， 可 以 随时 与 我 们 联系 : 


permissions@oreilly.com.。 








Safari 在 线 图 书 


Safari 在 线 图 书 (www.safaribooksonline.com) 是 应 需 而 变 的 数字 图 书 
它 同 时 以 图 书 和 视频 的 形式 出 版 ”世界 顶级 技术 和 商务 作家 的 专业 
口 口 o 


Safari Books Online 是 技术 专家 、 软 件 开 发 人 员 、Web 设计 师 、 丙 务 人 
士 和 创意 人 士 开 展 调 研 、 解 决 问题 、 学 习 和 认证 培训 的 第 一 手 资料 。 


对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 
合 和 灵活 的 定价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 
O'Reilly Media、 Prentice Hall Professional、 Addison-Wesley 
Professional、 Microsoft Press、Sams、Que、Peachpit Press、 Focal 
Press、 Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、 
IBM Redbooks、 Packt、Adobe Press、FT Press、Apress、Manning、New 
Riders、McGraw-Hill、Jones & Bartlett、Course Technology 以 及 其 他 几 
十 家 出 版 社 的 上 千 种 图 书 、 培 训 视频 和 正式 出 版 之 前 的 书稿 。 要 了 解 
SafariBooks Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 
请 把 对 本 书 的 评论 和 问题 发 给 出 版 社 。 
美国 : 


O'Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 
95472 


中 国 ; 


北京 市 西城 区 西直门 南大 街 2 号 成 铬 大 厦 C 座 807 室 (100035)〉 奥 羔 利 
技术 咨询 (北京 》 有 限 公司 


O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 关于 本 书 的 相关 
信息 ， 包 括 勘误 表 、 示 例 代 码 以 及 其 他 的 信息 。 本 书 的 网 站 地 址 是 : 











http://oreil.ly/mongodb-2e 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 件 到 : 
bookquestions(@oreilly.com 


要 了 解 更 多 O’Reilly 图 书 、 塔 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 
网 站 : 


http:/www.oreily.com 

我 们 在 Facebook 的 地 址 如 下 : 
http://facebook.com/oreilly 

请 关注 我 们 的 Twitter 动态 : 
http://twitter.com/oreillymedia 
我 们 的 YouTube 视频 地 址 如 下 : 





致谢 


感谢 本 书 的 技术 审 稿 人 Adam Comerford、Eric Milke 和 Greg Studer。 他 
们 在 完善 本 书 的 过 程 中 做 出 了 不 懈 努 力 。 感 谢 优秀 的 编辑 Ann Spencer 在 
本 书 出 版 的 每 一 阶段 对 我 的 帮助 。 感 谢 我 在 10gen 的 各 位 同事 ， 感 谢 他 
们 与 我 分 享 MongoDB 的 知识 和 建议 ， 同 时 也 感谢 Eliot Horowitz 和 
Dwight Merriman 启 动 MongoDB 这 个 项 目 。 最 后 要 感谢 Andrew 在 本 书 编 
写 过 程 中 提供 的 支持 和 建议 。 


一 部 分 


MongoDB 介 绍 


第 1 章 ”MongoDB 人 简介 


MongoDB 是 一 球 强 大 、 灵 活 ， 且 易于 扩展 的 通用 型 数据 库 。 它 能 扩展 
出 非常 多 的 功能 ， 如 二 级 索引 (secondary ”index) 、 范 围 查 询 (range 
query) 、 排 序 、 聚 合 〈aggregation ) ， 以 及 地 理 空间 索引 (geospatial 
index) 。 本 章 涵盖 了 MongoDB 的 主要 设计 特点 。 


1.1 易于 使 用 


MongoDB 是 一 个 面向 文档 (document-oriented〉 的 数据 库 ， 而 不 是 关系 
不 采用 关系 模型 主要 是 为 了 获得 更 好 的 扩展 性 。 当 然 ， 还 有 
此 他 一 些 灶 外 


与 关系 型 数据 库 相 比 ， 面 同文 档 的 数据 库 不 再 有 “ 行 ”(row)〉 的 概念 ， 
取而代之 的 是 更 为 灵活 的 “文档 ”(document) 模型 。 通 过 在 文档 中 其 入 
文档 和 数组 ， 面 同文 档 的 方法 能 够 仅 使 用 一 条 记录 来 表现 复杂 的 层次 关 
系 ， 这 与 使 用 现代 面向 对 象 语言 的 开发 者 对 数据 的 看 法 一 致 。 


另外 ， 不 再 有 预定 义 模式 (predefined schema) : 文档 的 键 〈key) 和 值 

(value) 不 再 是 固定 的 类 型 和 大 小 。 由 于 没有 固定 的 模式 ， 根 据 需 要 添 
加 或 删除 字段 变 得 更 容易 了 。 通 常 ， 由 于 开发 者 能 够 进行 快速 迭代 ， 所 
以 开发 进程 得 以 加 快 。 而 且 ， 实 验 更 容易 进行 。 开 发 者 能 尝试 大 量 的 数 
据 模型 ， 从 中 选择 一 个 最 好 的 。 


1.2 易于 扩展 


应 用 程序 数据 集 的 大 小 正在 以 不 可 思议 的 速度 增长 。 随 着 可 用 带宽 的 增 
长 和 存储 器 价格 的 下 降 ， 即 使 是 一 个 小 规模 的 应 用 程序 ， 需 要 存储 的 数 
气量 也 可 能 大 得 惊人 ， 甚 至 超出 了 很 多 数据 库 的 处 理 能 力 。 过 去 非 第 罕 
见 的 T 级 别 数 据 ， 现 在 已 是 司空 见 惯 了 。 


由 于 需要 存储 的 数据 量 不 断 增长 ， 开 发 者 面临 一 个 困难 : 应 该 如 何 扩展 
数据 库 ? 实质 上 ， 这 是 纵向 扩展 〈scale up) 和 横 癌 扩展 (scale out) 之 
间 的 选择 。 纵 辐 扩 展 束 是 使 用 计算 能 力 更 强 的 机 器 ， 而 横 回 扩展 就 是 通 
过 分 区 将 数据 分 散 到 更 多 机 器 上 。 通 销 ， 纵 回 扩 展 是 最 省 力 的 做 法 ， 其 
缺点 是 大 型 机 一 般 都 非常 昂 贯 。 而 且 ， 当 数据 量 达 到 机 堪 的 物理 极限 
































时 ， 无 论 花 多 少 钱 也 买 不 到 更 强 的 机 器 了 。 男 一 个 选择 是 横 癌 扩展 : 要 
增加 存储 空间 或 提高 性 能 ， 只 需 购买 一 人 台 普 通 的 服务 顺 并 把 它 添加 到 集 
群 中 就 可 以 了 。 横 同 扩 展 既 便宜 又 易于 扩展 ; 不过， 管理 1000 台 机 器 比 
管理 一 台 机 器 显然 要 困难 得 多 。 


MongoDB 的 设计 采用 横向 扩展 。 面 向 文档 的 数据 模型 使 它 能 很 容易 地 
在 多 台 服 务 器 之 间 进 行 数据 分 制 。MongoDB 能 自动 处 理 跨 集群 的 数据 
和 负载 ， 目 动 重新 分 配 文档 ， 以 及 将 用 户 请 求 路 由 到 正确 的 机 右上 。 这 
样 ， 开 发 者 能 够 集中 精力 编写 应 用 程序 ， 而 不 需要 考虑 如 何 扩展 的 问 
题 。 如 果 一 个 集群 需要 更 大 的 容量 ， 只 需要 问 集 群 添 加 新 服务 器 ， 
MongoDB 束 会 日 动 将 现 有 数据 问 新 服务 器 传送 。 


1.3 ”丰富 的 功能 


MongoDB 作 为 一 天 通用 型 数据 库 ， 除 了 能 够 创建 、 读 取 、 更 新 和 删除 
数据 之 外 ， 还 提供 一 系列 不 断 扩展 的 独特 功能 。 


























索引 (indexing) 


MongoDB 文 持 通 用 二 级 索引 ， 人 允许 多 种 快速 查询 ， 且 提供 唯一 索 
引 、 复 合 索 引 、 地 理 空间 索引 ， 以 及 全 文 索 引 。 





聚合 (aggregation) 


\、 二 Ac 


MongoDB 文 持 “ 聚 合 管道 ”(aggregation ” pipeline) 。 用 户 能 通过 笛 
单 的 卢 段 创建 复杂 的 聚合 ， 并 通过 数据 库 自 动 优化 。 


特殊 的 集合 类 型 

MongoDB 文 持 存 在 时 间 有 限 的 集合 ， 适 用 于 那些 将 在 某 个 时 刻 过 
期 的 数据 ， 如 会 话 (session) 。 类 似 地 ，MongoDB 也 支持 固定 大 小 
的 集合 ， 用 于 保存 近期 数据 ， 如 日 志 。 

文件 存储 file storage ) 


ee 易 用 的 协议 ， 用 于 存储 大 文件 和 文件 元 数 

















MongoDB 并 不 有 具备 一 些 在 关系 型 数据 库 中 很 普 志 的 功能 ， 如 连接 
(join) 和 复杂 的 多 行事 务 (multirow transaction) 。 省 略 这 些 功能 是 出 
于 架构 上 的 考虑 (为 了 得 到 更 好 的 扩展 性 ) ， 因 为 在 分 布 式 系统 中 这 两 
个 功能 难以 高 效 地 实现 。 


1.4 ”下越 的 性 能 


MongoDB 的 一 个 主要 目标 是 提供 日 越 的 性 能 ， 这 很 大 程度 上 决定 了 
MongoDB 的 设计 。MongoDB 能 对 文档 进行 动态 填充 (dynamic 
padding) ， 也 能 预 分 配 数据 文件 以 利用 额外 的 空间 来 换取 稳定 的 性 
能 。MongoDB 把 尽 可 能 多 的 内 存 用 作 绥 存 〈cache) ， 试 图 为 每 次 查询 
的 索引 。 总 之 ，MongoDB 在 各 方面 的 设计 都 旨 在 保持 它 


里 然 ，MongoDB 非 常 强大 并 试图 保留 天 系 型 数据 库 的 很 多 特性 ， 但 它 
并 不 退 求 具备 关系 型 数据 库 的 所 有 功能 。 只 要 有 可 能 ， 数 据 库 服务 器 就 
会 将 处 理 和 逻辑 交 给 客户 端 〈 通 过 驱动 程序 或 用 户 的 应 用 程序 代码 来 实 
现 ) 。 这 种 精简 方式 的 设计 是 MongoDB 能 够 实现 如 此 高 性 能 的 原因 之 




















1.5 小结 


本 书 将 详细 说 明 MongoDB 开 发 过 程 中 的 一 些 特定 设计 背后 的 原因 和 动 
机 ， 借 此 分 享 MongoDB 背 后 的 哲学 。 当 然 ， 掌 握 MongoDB 最 好 的 方式 
是 创建 一 个 易 扩 展 、 灵 活 、 快 速 的 功能 完备 的 数据 存储 ， 这 也 是 
MongoDB 的 意义 所 在 。 


第 2 章 ”MongoDB 基 础 知识 


MongoDB 非 常 强 大 但 很 容易 上 手 。 本 章 会 介绍 一 些 MongoDB 的 基本 概 


[ui\ 








。 文档 是 MongoDB 中 数据 的 基本 单元 ， 非 常 类 似 于 关系 型 数据 库 管 
理 系 统 中 的 行 ， 但 更 具 表 现 力 。 

。 类 似 地 ， 集 合 〈collection ) 可 以 看 作 是 一 个 拥有 动态 模式 
(dynamic schema ) 的 表 。 

MongoDB 的 一 个 实例 可 以 拥有 多 个 相互 独立 的 数据 库 

Cdatabase) ， 每 一 个 数据 库 都 拥有 自己 的 集合 。 

。 人 这 个 键 在 文档 所 属 的 集合 中 

十 唯一 的 。 

MongoDB 自 带 了 一 个 简单 但 功能 强大 的 JavaScript shell， 可 用 于 管 

理 MongoDB 的 实例 或 数据 操作 。 


2.1 文档 

文档 是 MongoDB 的 核心 概念 。 文 档 就 是 键 值 对 的 一 个 有 序 集 。 每 种 编 
程 语言 表示 文档 的 方法 不 太一 样 ， 但 大 多 数 编程 语言 都 有 一 些 相 通 的 数 
据 结 构 ， 比 如 映射 (map〉 、 散 列 (hash) 或 字典 (dictionary)〉 。 例 
如 ， 在 JavaScript 里 面 ， 文 档 被 表示 为 对 象 : 


{"greeting" : "Hello, world!"} 














这 个 文档 只 有 一 个 键 "greeting"， 其 对 应 的 值 为 "Hello,，world!"。 大 多 
数 文档 会 比 这 个 简单 的 例子 复杂 得 多 ， 通 常会 包含 多 个 键 / 值 对 : 


{"greeting" : "Hello, world!", "foo" : 3} 
从 上 面 的 例子 可 以 看 出 ， 文 档 中 的 值 可 以 是 多 种 不 同 的 数据 类 型 (甚至 
可 以 是 一 个 完整 的 内 髋 文档 ， 详 见 2.6.4 节 〉 。 在 这 个 例子 
中 ，"greeting" 的 值 是 一 个 字符 串 ， 而 "foo" 的 值 是 一 个 整数 。 


文档 的 键 是 字符 串 。 除 了 少数 例外 情况 ， 键 可 以 使 用 任意 UTF-8 字 符 。 


。 键 不 能 含有 \0〔 空 字符 ) 。 这 个 字符 用 于 表示 键 的 结尾 。 

。 | 只 能 在 特定 环境 下 使 用 (后 面 的 音节 会 详细 说 
明 ) 。 通 常 ， 这 两 个 字符 是 被 保留 的 ; 如 果 使 用 不 当 的 话 ， 驱 动 程 
序 会 有 提示 。 


Re 分 类 型 ， 而 且 区 分 大 小 写 。 例 如 ， 下 面 的 两 个 文档 是 
不 同 的 








{"foo" : 3} 
{"foo" : "3"} 
下 面 两 个 文档 也 是 不 同 的 : 
{"foo" : 3} 
{"Foo" : 3} 


还 有 一 个 非常 重要 的 事项 需要 注意 ，MongoDB 的 文档 不 能 有 重复 的 
键 。 例 如 ， 下 面 的 文档 是 非法 的 : 


{"greeting" : "Hello, world!", "greeting" : "Hello, MongoDB!"} 


文档 中 的 键 / 值 对 是 有 序 的 : {"x" : 1，"y": 2} 与 { 

是 不 同 的 。 通 常 ， 字 上 段 顺 序 并 不 重要 ， 无 贫 计 数据 库 模式 依 菇 特定 的 字 
段 顺 序 (MongoDB 会 对 字段 重新 排序 ) 。 在 某 些 特殊 情况 下 ， 字 段 顺 
序 变 得 非常 重要 ， 本 书 将 就 此 给 出 提示 。 

一 些 编程 语言 对 文档 的 默认 表示 根本 就 不 包含 顺序 问题 〈 如 : Python 中 
的 字典 、Perl 和 Ruby 1.8 中 的 散 列 ) 。 通 常 ， 这 些 语言 的 驱动 具有 某 些 
特殊 的 机 制 ， 可 以 在 必要 时 指定 文档 的 顺序 。 

2.2 集合 


合 就 是 一 组 文档 。 如 果 将 MongoDB 中 的 一 个 文档 比喻 为 关系 型 数据 
库 中 的 一 行 ， 那 么 一 个 集合 就 相当 于 一 张 表 。 


2.2.1 动态 模式 














合 是 动态 模式 的 。 这 意味 痢 一 个 集合 里 面 的 文档 可 以 是 各 式 各 样 的 。 
例如 ， 下 面 两 个 文档 可 以 存储 在 同一 个 集合 里 面 : 


{"greeting" : "Hello, world!"} 
{"foo" : 5} 


需要 注意 的 是 ， 上 面 的 文档 不 光 值 的 类 型 不 同一 个 是 字符 串 ， 一 个 是 
整数 ) ， 它 们 的 键 也 完全 不 同 。 因 为 集合 里 面 可 以 放置 任何 文档 ， 随 之 
而 来 的 一 个 问题 是 : 还 有 必要 使 用 多 个 集合 吗 ? 这 的 确 值得 思考 : 既然 
没有 必要 区 分 不 同类 型 文档 的 模式 ， 为 什么 还 要 使 用 多 个 集合 呢 ? 这 里 
有 几 个 重要 的 原因 。 


。 如 果 把 各 种 各 样 的 文档 不 加 区 分 地 放 在 同一 个 集合 里 ， 无 论 对 开发 
者 还 是 对 管理 员 来 说 都 将 是 址 梦 。 开 发 者 要 么 确保 每 次 查询 只 返回 
特定 类 型 的 文 要 ， 要 么 让 执行 查询 的 应 用 程序 来 处 理 所 有 不 同类 型 
的 文档 。 如 果 碍 询 博 客 文章 时 还 要 剔除 含有 作者 数据 的 文档 ， 这 会 
市 来 很 大 困扰 。 


。 在 一 个 集合 里 查询 特定 类 型 的 文档 在 速度 上 也 很 不 划算 ， 分 开 查 询 
多 个 集合 要 快 得 多 。 例 如 ， 假 设 集合 里 面 一 个 名 为 "type" 的 字段 用 
于 指明 文档 是 skim、whole 还 是 chunky monkey。 那 么 ， 如 果 从 一 个 
集合 中 查询 这 三 种 类 型 的 文档 ， 速 度 会 很 慢 。 但 如 有 果 将 这 三 种 不 同 
类 型 的 文档 拆 分 为 三 个 不 同 的 集合 ， 每 次 只 需要 得 询 相应 的 集合 ， 
速度 快 得 多 。 


把 同 种 类 型 的 文档 放 在 一 个 集合 里 ， 数 据 会 更 加 集中 。 从 一 个 只 包 

含 博客 文章 的 集合 里 碍 询 几 篇 文章 ， 或 者 从 同时 包含 文章 数据 和 作 

人 
分 。 


创建 索引 时 ， 需 要 使 用 文档 的 附加 结构 《特别 是 创建 唯一 索引 
时 ) 。 索 引 是 按照 集合 来 定义 的 。 在 一 个 集合 中 只 放 入 一 种 类 型 的 
文档 ， 可 以 更 有 效 地 对 集合 进行 索引 。 


上 面 这 些 重要 原因 促使 我 们 创建 一 个 模式 ， 把 相关 类 型 的 文档 组 织 在 一 
起 ， 尽 管 MongoDB 对 此 并 没有 强制 要 求 。 























2.2.2 ”命名 





名 称 进 行 标识 。 集 合 名 可 以 是 满足 下 列 条 件 的 任意 UTF-8 字 符 


。 集合 名 不 能 是 空 字符 串 ("") 。 

。 集合 名 不 能 包含 \0 字 符 ( 空 字符 ) ， 这 个 字符 表示 集合 名 的 结束 。 
。 集合 名 不 能 以 “system.” 开 涉 ， 这 是 为 系统 集合 保留 的 前 级 。 例 如 ， 
system.users 这 个 集 合 保存 着 数据 库 的 用 户 信息 ， 而 
system.namespaces 集 合 保存 着 所 有 数据 库 集合 的 信息 。 

用 户 创 建 的 集合 不 能 在 集合 名 中 包含 保留 字符 '$'。 因 为 某 些 系 统 生 
成 的 集合 中 包含 $8;， 很 多 驱动 程序 确实 支持 在 集合 名 里 包含 该 字 
符 。 除 非 你 要 访问 这 种 系统 创建 的 集合 ， 否 则 不 应 该 在 集合 名 中 包 


含 $。 
子 集合 
组 织 集合 的 一 种 惯例 是 使 用 “.” 分 隔 不 同 命 名 空间 的 子 集合 。 例 如 ， 一 个 
具有 博客 功能 的 应 用 可 能 包含 两 个 集合 ， 分 别 是 blog.posts 和 
blog.authors。 这 是 为 了 使 组 织 结构 更 清晰 ， 这 里 的 blog 集 合 《〈 这 个 集合 
甚至 不 需要 存在 ) 跟 它 的 子 集合 没有 任何 关系 。 


虽然 子 集合 没有 任何 特别 的 属性 ， 但 它们 却 非常 有 用 ， 因 而 很 多 
MongoDB 工 具 都 使 用 了 子 集合 。 




















。 GridFS (一 种 用 于 存储 大 文件 的 协议 ) 使 用 子 集合 来 存储 文件 的 元 
数据 ， 这 样 就 可 以 与 文件 内 容 块 很 好 地 隔离 开 来 。《〈 第 6 章 会 详细 
介绍 GridFS。 ) 

。 大 多 数 驱 动 程序 都 提供 了 一 些 语 法 糖 ， 用 于 访问 指定 集合 的 子 集 
合 。 例 如 ， 在 数据 库 shell 中 ，db.blog 代 表 blog 集 合 ， 

而 db.blog.posts 代 表 blog.posts 集 合 。 


在 MongoDB 中 ， 使 用 子 集合 来 组 织 数据 非常 高 效 ， 值 得 推荐 。 
2.3 数据库 











在 MongoDB 中 ， 多 个 文档 组 成 集合 ， 而 多 个 集合 可 以 组 成 数据 库 。 一 
个 MongoDB 实 例 可 以 承载 多 个 数据 库 ， 每 个 数据 库 拥 有 0 个 或 者 多 个 集 
合 。 每 个 数据 库 都 有 独立 的 权限 ， 即 便 是 在 磁盘 上 ， 不 同 的 数据 库 也 放 
置 在 不 同 的 文件 中 。 按 照 经 验 ， 我 们 将 有 关 一 个 应 用 程序 的 所 有 数据 都 
存储 在 同一 个 数据 库 中 。 要 想 在 同一 个 MongoDB 服 务 器 上 存放 多 个 应 
用 程序 或 者 用 户 的 数据 ， 就 需要 使 用 不 同 的 数据 库 。 


数据 库 通 过 名 称 来 标识 ， 这 点 与 集合 类 似 。 数 据 库 名 可 以 是 满足 以 下 条 
件 的 任意 UTF-8 字 符 串 。 











。 不 得 合 人 
符 ) 。 基本 上 只 能 使 用 ASCII 中 的 字母 和 数字 

。 数 据 库 名 区 分 大 小 写 ， 即 便 是 在 不 区 分 大 小 写 的 文件 系统 中 也 是 如 
此 。 简 单 起 见 ， 数 据 库 名 应 全 部 小 写 。 

。 数据 库 名 最 多 为 64 字 方 。 


要 记 住 一 点 ， 数 据 库 最 终 会 变 成 文件 系统 里 的 文件 ， 而 数据 库 名 就 是 相 
应 的 文件 名 ， 这 是 数据 库 名 有 如 此 多 限制 的 原因 。 


另外 ， 有 一 些 数 据 库 名 是 保留 的 ， 可 以 直接 访问 这 些 有 特殊 语义 的 数据 
库 。 这 些 数据 库 如 下 所 示 。 








e admin 


从 身份 验证 的 角度 来 讲 ， 这 是 “root” 数 据 库 。 如 果 将 一 个 用 户 添加 到 
admin 数 据 库 ， 这 个 用 户 将 自动 获得 所 有 数据 库 的 权限 。 再 者 ， 一 些 特 
a 只 能 从 admin 数 据 库 运行 ， 如 列 出 所 有 数据 库 或 关 
闭 


e local 


这 个 数据 库 永 远 都 不 可 以 复制 ， 且 一 人 台 服 务 串 上 的 所 有 本 地 集合 都 
站 绍 复制 及 本 地 数据 
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e config 


MongoDB 用 于 分 片 设置 时 (参见 第 13 章 ) ， 分 片 信息 会 存储 在 
config 数 据 库 中 。 


把 数据 库 名 添加 到 集合 名 前 ， 得 到 集合 的 完全 限定 名 ， 即 命名 空间 
Cnamespace) 。 人 例如， 如果 要 使 用 cms 数 据 库 中 的 blog.posts 人 集合， 这 个 
集合 的 合 8 名 空间 就 是 cms .blog.posts。 命 名 空间 的 长 度 不 得 超过 121 字 
节 ， 且 在 实际 使 用 中 应 小 于 100 字 节 。 (参考 附录 B， 了 解 MongoDB 中 
集合 的 命名 空间 及 内 部 表示 的 更 多 信息 。 


2.4 启动 MongoDB 


通常 ，MongoDB 作 为 网 络 服务 器 来 运行 ， 客 户 端 可 连接 到 该 服务 器 并 
执行 操作 。 下 载 MongoDB (http://www. 和 并 解 
压 ， 运 行 nongod 命 令 ， 局 动 数据 库 服 务 器 


$ mongod 

mongod --help for help and startup options 

Thu Oct 11 12:36:48 [initandlisten] MongoDB starting : pid=2425 port=27017 
dbpath=/data/db/ 64-bit host=spock 

Thu Oct 11 12:36:48 [initandlisten] db version v2.4.0, pdfile version 4.5 

Thu Oct 11 12:36:48 [initandlisten] git version: 
3aaea5262d761e0bb6bfef5351cfbfca7af06ec2 

Thu Oct 11 12:36:48 [initandlisten] build info: Darwin spock 11.2.0 Darwin Kernel 
Version 11.2.0: Tue Aug 9 20:54:00 PDT 2011; 
root:xnu-1699.24.8~1/RELEASE X86_64 x86_64 BOOST_LIB VERSION=1_48 

Thu Oct 11 12:36:48 [initandlisten] options: {} 

Thu Oct 11 12:36:48 [initandlisten] journal dir=/data/db/journal 

Thu Oct 11 12:36:48 [initandlisten] recover : no journal files present, no 
recovery needed 

Thu Oct 11 12:36:48 [websvr] admin web console waiting for connections on 
port 28017 

Thu Oct 11 12:36:48 [initandlisten] waiting for connections on port 27017 





在 Windows 系 统 中 ， 执 行 这 个 命令 : 


$ mongod.exe 





3 3, 
> 
Ws Ss 
心 ' 关 于 安装 MongoDB 的 详细 信息 ， 参 见 附录 A。 





mongod 在 没有 参数 的 情况 下 会 使 用 默认 数据 目录 /data/db (Windows 系 统 
中 为 Cdatasdb ) 。 如 果 数 据 目 录 不 存在 或 者 不 可 写 ， 服 务 器 会 启动 失 
败 。 因 此 ， 在 启动 MongoDB 前 ， 先 创建 数据 目录 (如 mkdir -p /data/db 
/ ) ， 以 确保 对 该 目录 有 写 权 限 ， 这 点 非常 重要 。 


启动 时 ， 服 务 器 会 打印 版 本 和 系统 信息 ， 然 后 等 竺 连接。 默认 情况 下 ， 
MongoDB 监 听 27017 端 口 。 如 果 端 口 被 占用 ， 启 动 将 失败 。 通 常 ， 这 是 
由 于 已 经 有 一 个 MongoDB 实 例 在 运行 了 。 


mongod 还 会 启动 一 个 非常 基本 的 HTTP 服 务 器 ， 监 听 数 字 比 主 端口 号 高 
1000 的 端口 ， 也 就 是 28017 端 口 。 这 意味 着 ， 通 过 浏览 器 访问 
http:/localhost:28017， 能 获取 数据 库 的 管理 信息 。 


中 止 mongod 的 运行 ， 只 须 在 运行 着 服务 器 的 shell 中 按 下 Ctrl-C。 


























要 想 了 解 启动 和 停止 MongoDB 的 更 多 细节 ， 参 见 第 20 


2.5 MongoDB shell 人 简介 


MongoDB 目 带 JavaScript shell， 可 在 shell 中 使 用 命令 行 与 MongoDB 实 例 
交互 。shell 非 常 有 用 ， 通 过 它 可 以 执行 管理 操作 ， 检 查 运 行 实例 ， 亦 或 
做 其 他 尝试 。 对 MongoDB 来 说 ，mongo shell 是 至 关 重 要 的 工具 ， 其 应 用 
之 广泛 将 体现 在 本 书 接 下 来 的 部 分 中 。 


2.5.1 运行 shell 


运行 mongo 启 动 shell: 


$ mongo 

MongoDB shell version: 2.4.0 
connecting to: test 

> 


启动 时 ，shell 将 自动 连接 MongoDB 服 务 器 ， 须 确保 mongod 已 启动 。 


shel] 是 一 个 功能 完备 的 JavaScript 解 释 器 ， 可 运行 任意 JavaScript 程 序 。 
为 说 明 这 一 点 ， 我 们 运行 几 个 简单 的 数学 运算 : 


> X = 200 
200 
>x/5; 
40 


另外 ， 可 充分 利用 JavaScript 的 标准 库 : 


> Math,Sin(Math,PI / 2); 

1 

> new Date("2010/1/1"); 

"Fri Jan 01 2010 00:00:00 GMT-0500 (EST)" 

> "Hello, World!".replace("wWorld", "MongoDB"); 
Hello, MongoDB! 


再 者 ， 可 定义 和 调用 JavaScript 函 数 : 


> function factorial (n) { 
,if (n <= 1) return 1; 
, return n * factorial(n - 1); 


> factorial(5); 
120 








需要 注意 ， 可 使 用 多 行 命令 。shell 会 检测 输入 的 JavaScript 语 句 是 否 完 
整 ， 如 没 写 完 可 在 下 一 行 接着 写 。 在 某 行 连续 三 次 按 下 回 车 键 可 取消 未 
输入 完成 的 命令 ， 并 退回 到 > 一 提示 符 。 


2.5.2 MongoDB 客 户 亲 


能 运行 任意 JavaScript 程 序 听 上 去 很 酷 ， 不 过 shell 的 真正 强大 之 处 在 于 ， 
它 是 一 个 独立 的 MongoDB 客 户 端 。 局 动 时 ，shell 会 连 到 MongoDB 服 务 
器 的 test 数 据 库 ， 并 将 数据 库 连 接 赋值 给 全 局 变量 db。 这 个 变量 是 通过 
shell 访 问 MongoDB 的 主要 入 口 点 。 


如 休想 要 得 看 db 当前 指 同 哪个 数据 库 ， 可 以 使 用 db 命令 : 


> db 
test 











为 了 方便 习惯 使 用 SQL shell 的 用 户 ，shell 还 包含 一 些 非 JavaScript 语 法 的 
扩展 。 这 些 扩 展 并 不 提供 额外 的 功能 ， 而 是 一 些 非常 棒 的 语法 糖 。 例 
如 ， 最 重要 的 操作 之 一 为 选择 数据 库 : 


> use foobar 
switched to db foobar 





现在 ， 如 果 碍 看 db 变量 ， 会 发 现 其 正 指 同 foobar 数 据 库 : 


> db 
foobar 


因为 这 是 一 个 JavaScript ”shell， 所 以 键入 一 个 变量 会 将 此 变量 的 值 转换 
为 字符 串 〈《 即 数据 库 名 〉 并 打印 出 来 。 


通过 db 变量 ， 可 访问 其 中 的 集合 。 例 如 ， 通 过 db .baz 可 返回 当前 数据 库 
的 baz 集 合 。 因 为 通过 shel 可 访问 集合 ， 这 意味 着 ， 几 乎 所 有 数据 库 操 
作 都 可 以 通过 shell 完 成 。 


2.5.3 ”shell 中 的 基本 操作 


在 shell 中 查看 或 操作 数据 会 用 到 4 个 基本 操作 : 创建 、 读 取 、 更 新 和 删 
除 〈 即 通常 所 说 的 CRUD 操 作 ) 。 


1. 创建 


insert 函 数 可 将 一 个 文档 添加 到 集合 中 。 举 一 个 存储 博客 文章 的 例子 。 
首先 ， 创 建 一 个 名 为 post 的 局 部 变量 ， 这 是 一 个 JavaScript 对 象 ， 用 于 表 
示 我 们 的 文档 。 它 会 有 几 个 键 : "title"、"content" 和 "date" (发 布 日 
期 ) 。 





> post = {"title" : "My Blog Post", 
.. "Content" : "Here's my blog post.", 
... "date" : new Date()} 
{ 
"title" : "My Blog Post", 
"content" : "Here's my blog post.", 


"date" : ISODate("2012-08-24T21:12:09.9822") 


这 个 对 象 是 个 有 效 的 MongoDB 文 档 ， 所 以 可 以 用 insert 方 法 将 其 保存 
到 blog 集 合 中 : 


> db.blog.insert(post) 


这 篇 文章 已 被 存 到 数据 库 中 。 要 查看 它 可 用 调用 集合 的 find 方 法 : 
> db.blog.find() 
{ 
"_id" : ObjectId("5037ee4a1084eb3ffeef7228"), 
"title" : "My Blog Post", 


"content" : "Here's my blog post.", 
"date" : ISODate("2012-08-24T21:12:09.9822Z") 


可 以 看 到 ， 我 们 曾 输 入 的 键 / 值 对 都 已 被 完整 地 记录 。 此 外 ， 还 有 一 个 
额外 评 加 的 键 " id"。"_id" 突 然 出 现 的 原因 将 在 本 章 末尾 解释 。 


2. 读 取 


find 和 findone 方 法 可 以 用 于 查询 集合 里 的 文档 。 奉 只 想 查 看 一 个 文 
档 ， 可 用 findone: 


> db.blog.findone() 
{ 








"_id" :; ObjectId("5037ee4a1084eb3ffeef7228"), 
"title" : "My Blog Post", 

"content" : "Here's my blog post.", 

"date" : ISODate("2012-08-24T21:12:09.9822Z") 


find 和 findone 可 以 接受 一 个 查询 文档 作为 限定 条 件 。 这 样 就 可 以 查询 
符合 一 定 条 件 的 文档 。 使 用 find 时 ，shell 会 自动 显示 最 多 20 个 匹配 的 文 
档 ， 也 可 获取 更 多 文档 。 第 4 章 会 详细 介绍 查询 相关 的 内 容 。 


3. 更 新 


使 用 update 修 改 博 客 文 章 。update 接 受 〈 至 少 ) 两 个 参数 : 第 一 个 是 限 
定 条 件 〈 用 于 匹配 竺 更 新 的 文档 ) ， 第 二 个 是 新 的 文档 。 假 设 我 们 要 为 
先前 写 的 文章 增加 评论 功能 ， 就 需要 增加 一 个 新 的 键 ， 用 于 保存 评论 数 
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首先 ， 修改 变量 post， 增加 "comments" 键 : 


> post,comments = [] 


[ ] 
然后 执行 update 操 作 ， 用 新 版 本 的 文档 普 换 标题 为 "My Blog Post 的 文 
草 : 

> db.blog.update( {title : "My Blog Post"}, post) 
0 文档 已 经 有 了 "comments" 键 。 再 用 find 但 看 一 下 ， 可 以 看 到 新 的 


> db.blog.find() 
{ 


"_id" : ObjectId("5037ee4a1084eb3ffeef7228"), 
"title" : "My Blog Post", 


"content" : "Here's my blog post.", 
"date" : ISODate("2012-08-24T21:12:09.9822Z"), 
"comments" : [ ] 
} 
AN 
4. 删除 


使 用 remove 方 法 可 将 文档 从 数据 库 中 永久 删除 。 如 果 没 有 使 用 任何 参 
数 ， 它 会 将 集合 内 的 所 有 文档 全 部 删除 。 它 可 以 接受 一 个 作为 限定 条 件 
的 文档 作为 参数 。 例 如 ， 下 面 的 命令 会 删除 刚刚 创建 的 文章 : 


> db.blog.remove({title : "My Blog Post"}) 


现在 ， 集 合 义 是 空 的 了 。 

2.6 ”数据 类 型 

本 章 开 始 部 分 介绍 了 文档 的 基本 概念 ， 现 在 你 已 经 会 启动 、 运 行 
MongoDB， 也 会 在 shell 中 进行 一 些 操作 了 。 这 一 节 的 内 容 会 更 加 深入 。 
MongoDB 文 持 将 多 种 数据 类 型 作为 文档 中 的 值 ， 下 面 将 一 一 介绍 。 


2.6.1 基本 数据 类 型 


在 概念 上 ，MongoDB 的 文档 与 JavaScript 中 的 对 象 相 近 ， 因 而 可 认为 它 
类 似 于 JSON。JSON (http://www.json.org) 是 一 种 简单 的 数据 表示 方 

式 : 其 规范 仅 用 一 段 文字 束 能 描述 清楚 《其 官网 证 明了 这 点 ) ， 且 仅 包 
含 6 种 数据 类 型 。 这 样 有 很 多 好 处 : 易于 理解 、 易 于 解析 、 易 于 记忆 。 

然而 ， 从 另 一 方面 来 说 ， 因 为 只 有 null、 布 尔 、 数 字 、 字 符 串 、 数 组 和 
对 象 这 几 种 数据 类 型 ， 所 以 JSON 的 表达 能 力 有 一 定 的 局 限 。 


虽然 JSON 具 备 的 这 些 类 型 已 具有 很 强 的 表现 力 ， 但 绝 大 多 数 应 用 (万 
其 是 在 与 数据 库 打 交道 时 ) 都 还 需要 其 他 一 些 重要 的 类 型 。 例 如 ， 
JSON 没 有 日 期 类 型 ， 这 使 原本 容易 的 日 期 处 理 变 得 烦人 人。 另外，JSON 
只 有 一 种 数字 类 型 ， 无 法 区 分 浮 点 数 和 整数 ， 更 别 说 区 分 32 位 和 64 位 数 
再 者 ，JSON 无 法 表示 其 他 一 些 通用 类 型 ， 如 正则 表达 式 或 函 


MongoDB 在 保留 JSON 基 本 键 / 值 对 特性 的 基础 上 ， 添 加 了 其 他 一 些 数据 
类 型 。 在 不 同 的 编程 语言 下 ， 这 些 类 型 的 确切 表示 有 些许 差异 。 下 面 
说 明 MongoDB 文 持 的 其 他 通用 类 型 ， 以 及 如 何在 文档 中 使 用 它们 。 




















e null 
null 用 于 表示 空 值 或 者 不 存在 的 字段 : 
{"x" : null} 
。 布尔 型 
布尔 类 型 有 两 个 值 true 和 false: 


{"x" : true} 


数值 
shell 默 认 使 用 64 位 浮 点 型 数值 。 因 此 ， 以 下 数值 在 shell 中 是 很 “ 正 
常 ” 的 : 


{"x" : 3.14} 





对 于 整 型 值 ， 可 使 用 NumberInt 类 《表示 4 字 节 带 符号 整数 ) 
或 NumberLong 类 (表示 8 字符 带 符号 整数 ) ， 分 别 举例 如 下 : 





{"x" : NumberInt("3")} 
{"x" : NumberLong("3")} 
。 字 符 串 机 
UTF-8 字 符 串 都 可 表示 为 字符 串 类 型 的 数据 : 
{"x" : "foobar"} 
。 日 期 


日 期 被 存储 为 自 新 纪元 以 来 经 过 的 富 秒 数 ， 不 存储 时 区 : 
{"x" : new Date()} 
正则 表达 式 


查询 时 ， 使 用 正则 表达 式 作为 限定 条 件 ， 语 法 也 与 JavaScript 的 正则 
表达 式 语 法 相同 : 


{"x" : /foobar/i} 


。 数组 
数据 列表 或 数据 集 可 以 表示 为 数组 : 


{"x" 上 ["a", sb "c"]} 


。 内 符 文 档 
文档 可 能 套 其 他 文档 ， 被 扔 套 的 文档 作为 父 文档 的 值 : 
{"x" 二 {"foo" "bar"}} 
。 对 象 id 
对 象 id 是 一 个 12 字 节 的 ID， 是 文档 的 唯一 标识 。 详 见 2.6.5 节 。 


{"x" : ObjectId()} 





还 有 一 些 不 那么 第 用， 但 可 能 有 需要 的 类 型 ， 包 括 下 面 这 些 。 


二 进 制 数 据 
二 进 制 数 据 是 一 个 任意 字 节 的 字符 串 。 它 不 能 直接 在 shell 中 使 用 。 
如 来 要 将 非 UTF-8 子 符 保存 到 数据 库 中 ， 二 进 制 数 据 是 唯一 的 方 


式 。 


。 代码 
查询 和 文档 中 可 以 包括 任意 JavaScript 代 码 : 


{"x" : function() { /* ... */ }} 





另外 ， 有 几 种 大 多 数 情况 下 仅 在 内 部 使 用 《或 被 其 他 类 型 取代 ) 的 类 
型 。 在 本 书 中 ， 出 现 这 种 情况 时 会 特别 说 明 。 


关于 MongoDB 数 据 格式 的 更 多 信息 ， 参 考 附录 B。 





2.6.2 日 期 
在 JavaScript 中 ，pDate 类 可 以 用 作 MongoDB 的 日 期 类 型 。 创 建 日 期 对 象 
时 ， 应 使 用 new Date (..) ， 而 非 Date (..) 。 如 将 构造 函数 


Cconstructor) 作为 函数 进行 调用 《〈 即 不 包括 new 的 方式 ) ， 返 回 的 是 日 
期 的 字符 串 表 示 ， 而 非 日 期 (pate) 对象。 这 个 结果 与 MongoDB 无 关 ， 
是 JavaScript 的 工作 机 制 决定 的 。 如 果 不 注 意 这 一 点 ， 没 有 始终 使 用 日 期 
(Date) 构造 函数 ， 将 得 到 一 堆 混 乱 的 日 期 对 象 和 日 期 的 字符 串 。 由 于 
日 期 和 字符 串 之 则 无 法 匹配 ， 所 以 执行 删除 、 更 新 及 查询 等 几乎 所 有 操 
作 时 会 导致 很 多 问题 。 


关于 JavaScript 日 期 类 的 完整 解释 ， 以 及 构造 函数 的 参数 格式 ， 参 见 
ECMAScript 规 范 15.9 节 (http://www.ecmascript.org) 。 


shell 根 据 本 地 时 区 设置 显示 日 期 对 象 。 然 而 ， 数 据 库 中 存储 的 日 期 仅 为 
新 纪元 以 来 的 训 秒 数 ， 并 未 存储 对 应 的 时 区 。 “当然 ， 可 将 时 区 信息 存 
储 为 另 一 个 键 的 值 ) 。 

2.6.3 ”数组 


数组 是 一 组 值 ， 它 既 能 作为 有 序 对 象 〈 如 列表 、 栈 或 队列 ) ， 也 能 作为 
无 序 对 象 〈 如 数据 集 ) 来 操作 。 








在 下 面 的 文档 中 ，"things" 这 个 键 的 值 是 一 个 数组 : 


{"things" : ["pie", 3.14]} 


此 例 表 示 ， 数 组 可 包含 不 同 数 据 类 型 的 元 素 〈 在 此 ， 是 一 个 字符 串 和 一 
个 浮 点 数 ) 。 实 际 上 ， 常 规 的 键 / 值 对 支持 的 所 有 值 都 可 以 作为 数组 的 
值 ， 数 组 中 甚至 可 以 套 骨 数组 。 


文档 中 的 数组 有 个 奇妙 的 特性 ， 就 是 MongoDB 能 “理解 ”其 结构 ， 并 知道 
如 何 “ 深 入 ”数组 内 部 对 其 内 容 进 行 操作 。 这 样 束 能 使 用 数组 内 容 对 数组 
进行 查询 和 构建 索引 了 。 例 如 ， 之 前 的 例子 中 ，MongoDB 可 以 碍 询 

出 "things" 数 组 中 包含 3.14 这 个 元 素 的 所 有 文档 。 要 是 经 常 使 用 这 个 查 
询 ， 可 以 对 "things" 创 建 索 引 来 提高 性 能 。 


MongoDB 可 以 使 用 原子 更 新 对 数组 内 容 进行 修改 ， 比 如 深入 数组 内 部 
将 pie 改 为 pi。 本 书后 面 还 会 介绍 更 多 这 种 操作 的 例子 。 


2.6.4 ”内 髓 文档 


文档 可 以 作为 键 的 值 ， 这 样 的 文档 束 是 内 髓 文档 。 使 用 内 内 文档 ， 可 以 
使 数据 组 织 方式 更 加 自然 ， 不 用 非得 存 成 局 平 结构 的 键 / 值 对 。 


例如 ， 用 一 个 文档 来 表示 一 个 人 ， 同 时 还 要 保存 他 的 地 址 ， 可 以 将 地 址 
言 奶 保存 在 内 骨 的 "address" 文 档 中 : 








{ 
"name" : "John Doe", 
"address" : { 
"street" : "123 Park Street", 
"City”: "Anytown", 
"state™ : "NY" 
} 
} 








上 面 例子 中 "address" 键 的 值 是 一 个 内 髓 文档 ， 这 个 文档 有 目 己 

的 "street"、"city" 和 和 "state" 键 以 及 对 应 的 值 。 

同 数组 一 样 ，MongoDB 能 够 “理解 ?内 花 文 档 的 结构 ， 并 能 “深入 ”其 中 构 
建 索 引 、 执 行 查 询 或 者 更 新 。 





稍 后 会 深入 讨论 模式 设计 ， 但 是 从 这 个 简单 的 例子 也 可 以 看 得 出 内 骸 文 
档 可 以 改变 处 理 数 据 的 方式 。 在 关系 型 数据 库 中 ， 这 个 例子 中 的 文档 一 
股 会 被 拆 分 成 两 个 表 中 的 两 个 行 (“people” 和 “address” 各 一 行 )。 在 
MongoDB 中 ， 就 可 以 直接 将 地 址 文档 嵌入 到 人 员 文 档 中 。 使 用 得 当 的 
话 ， 内 骸 文 档 会 使 信息 的 表示 方式 更 加 自然 (通常 也 会 更 高 效 ) 。 


MongoDB 这 样 做 的 坏处 就 是 会 导致 更 多 的 数据 重复 。 假 设 “address” 是 关 
系数 据 库 中 的 一 个 独立 的 表 ， 我 们 需要 修正 地 址 中 的 拼写 错误 。 当 我 们 
对 “people” 和 “address” 执 行 连接 操作 时 ， 使 用 这 个 地 址 的 每 个 人 的 信息 
a 
并 写 错 误 。 


2.6.5 _id 和 ObjectId 


MongoDB 中 存储 的 文档 必须 有 一 个 "_id" 键 。 这 个 键 的 值 可 以 是 任何 类 
型 的 ， 默 认 是 个 objectId 对 象 。 在 一 个 集合 里 面 ， 每 个 文档 都 有 唯一 

的 "id"， 确 保 集合 里 面 每 个 文档 都 能 被 唯一 标识 。 如 果 有 两 个 集合 的 
话 ， 两 个 集合 可 以 都 有 一 个 "id" 的 值 为 123， 但 是 每 个 集合 里 面 只 能 有 
一 个 文档 的 "_id" 值 为 123。 





1. objectId 


objectId 是 "_id" 的 默认 类 型 。 它 设计 成 轻 量 型 的 ， 不 同 的 机 器 都 能 

全 局 唯一 的 同 种 方法 方便 地 生成 它 。 这 是 MongoDB 采 用 objectId， 而 
不 是 其 他 比较 常规 的 做 法 (比如 自动 增加 的 主键 ) 的 主要 原因 ， 因 为 在 
多 个 服务 器 上 同步 自动 增加 主键 值 既 费力 又 费时 。 因 为 设计 MongoDB 
人 
符 非常 重要 。 


objectId 使 用 12 字 节 的 存储 空间 ， 是 一 个 由 24 个 十 六 进 制 数 字 组 成 的 字 
符 串 (每 个 字 节 可 以 存储 两 个 十 六 进 制 数字 ) 。 由 于 看 起 来 很 长 ， 不 少 
A 
据 的 两 倍 长 。 


如 果 快 速 连续 创建 多 个 objectId， 会 发 现 每 次 只 有 最 后 几 位 数字 有 变 
化 。 另 外 ， 中 间 的 几 位 数字 也 会 变化 《〈 要 是 在 创建 的 过 程 中 停顿 几 秘 
钟 ) 。 这 是 objectId 的 创建 方式 导致 的 。0bjectId 的 12 字 节 按 照 如 下 方 
式 生 成 : 

















0 |1 LD ee 生计 
时 间 惟 | 机 器 | PID | 十 数 器 








objectrd 的 前 4 个 字 节 是 从 标准 纪元 开始 的 时 间 玲 ， 单 位 为 秒 。 这 会 带 
来 一 些 有 用 的 属性 。 


， 与 随后 的 5 字 节 〔 稍 后 介绍 ， 组 合 起 来 ， 提 供 了 秒 级 别 的 


。 由 于 时 间 惟 在 前 ， 这 意味 着 objectId 大 致 会 按照 插入 的 顺序 排列 。 
这 对 于 某 些 方面 很 有 用 ， 比 如 可 以 将 其 作为 索引 提高 效率 ， 但 是 这 
个 是 没有 保证 的 ， 仅 仅 是 “大 致 ”。 

。 这 4 字 节 也 隐 含 了 文档 创建 的 时 间 。 绝 大 多 数 驱 动 程序 都 会 提供 一 
个 方法 ， 用 于 从 objectId 获 取 这 些 信息 。 


因为 使 用 的 是 当前 时 间 ， 很 多 用 户 担心 要 对 服务 器 进行 时 钟 同步 。 虽 然 

ss 在 服务 器 间 进 行 时 间 同 步 确实 是 个 好 主意 (参见 23.6.1 
， 但 是 这 里 其 实 没 有 必要 ， 因 为 时 间 惟 的 实际 值 并 不 重要 ， 只 要 它 
人 


接 下 来 的 3 字 贡 是 所 在 主机 的 唯一 标识 符 。 通 常 是 机 器 主 机 名 的 散 列 值 
Chash) 。 这 样 就 可 以 确保 不 同 主机 生成 不 同 的 objectId， 不 产生 冲 


邹 3 


大 。 


为 了 确保 在 同一 台 机 需 上 并 发 的 多 个 进程 产生 的 objectId 是 唯一 的 ， 接 
下 来 的 两 字 节 来 自 产生 objectId 的 进程 的 进程 标识 符 (PID)〉。 


前 9 字 节 保证 了 同一 秒 钟 不 同 机 器 不 同 进程 产生 的 objectId 是 唯一 的 。 
最 后 3 字 节 是 一 个 自动 增加 的 计数 器 ， 确 保 相 同 进程 同一 秒 产生 的 
objectId 也 是 不 一 样 的 。 一 秒 钟 最 多 允许 每 个 进程 拥有 256; (16 777 
216) 个 不 同 的 objectId。 


2. 目 动 生成 _id 


前 面 讲 到 ， 如 果 插 入 文档 时 没有 "id" 键 ， 系 统 会 日 动 大 你 创建 一 个 。 

可 以 由 MongoDB 服 务 嚣 来 做 这 件 事 ， 但 通 弟 会 在 客户 端 由 驱动 程序 完 
成 。 这 一 做 法 非常 好 地 体现 了 MongoDB 的 哲学 : 能 交 给 客户 端 驱动 程 
厅 来 做 的 事情 束 不 要 交 给 服务 器 来 做 。 这 种 理念 背后 的 原因 是 ， 即 便 是 
































像 MongoDB 这 样 扩展 性 非常 好 的 数据 库 ， 扩 展 应 用 层 也 要 比 扩展 数据 
将 工作 交 由 客户 端 来 处 理 ， 就 减轻 了 数据 库 扩 展 的 负 
昌 。 





2.7 ”使 用 MongoDB Shell 


本 节 将 介绍 如 何 将 shell 作 为 命令 的 一 部 分 来 使 用 ， 如 何 对 shell 进 
行 定 制 ， 以 及 shell 的 一 些 高 级 功能 


在 上 面 的 例子 中 ， 我 们 只 是 连接 到 了 一 个 本 地 的 mongod 实 例 。 事 实 
上 ， 可 以 将 shel 连 接 到 任何 MongoDB 实 例 〈 只 要 你 的 计算 机 与 
MongoDB 实 例 所 在 的 计算 机 能 够 连通 ) 。 在 局 动 shell 时 指定 机 器 名 和 端 
口 ， 就 可 以 连接 到 一 台 不 同 的 机 器 (或 者 端口 ) : 

$ mongo some-host:30000/myDB 


MongoDB shell version: 2.4.0 
connecting to: some-host:30000/myDB 
> 


db 现在 就 指向 了 some-host:30000 上 的 myDB 数 据 库 。 


启动 mongo shell 时 不 连接 到 任何 mongod 有 时 很 方便 。 --nodb 人 参数 局 
动 Shell， 局 动 时 就 不 会 连接 任何 数据 库 : 


$ mongo --nodb 
MongoDB shell version: 2.4.0 
> 


启动 之 后 ， 在 需要 时 运行 New Mongo(hostname) 命 令 就 可 以 连接 到 想 要 的 
mongod 了 : 

> conn = new Mongo("some-host:30000") 

connection to some-host:30000 


> db = conn.getDB("myDB") 
myDB 


执行 完 这 些 命令 之 后 ， 就 可 以 像 平 党 一 样 使 用 db 了 。 任 何 时 候 都 可 以 使 
用 这 些 命令 来 连接 到 不 同 的 数据 库 或 者 服务 器 。 


2.7.1 shell 小 贴 士 


由 于 mongo 是 一 个 简化 的 JavaScript shell， 可 以 通过 查看 JavaScript 的 在 线 
文档 得 到 大 量 帮助 。 对 于 MongoDB 特 有 的 功能 ，shell 内 置 了 帮助 文档 ， 
可 以 使 用 help 命 令 全 看 : 


> help 
db.help() help on db methods 
db.mycoll.help() help on collection methods 


sh.help() sharding helpers 


show dbs show database names 
show collections show collections in current database 
show users show users in current database 


可 以 通过 db .help() 查 看 数据 库 级 别 的 帮助 ， 使 用 db. foo.help( ) 查 看 集 
合 级 别 的 帮助 。 


如 果 想 知道 一 个 函数 是 做 什么 用 的 ， 可 以 直接 在 shell 输 入 函数 名 函数 
名 后 不 要 输入 小 括号 ) ， 这 样 吏 可 以 看 到 相应 函数 的 JavaScript 实 现代 
人 码 。 例 如 ， 如 果 想 知道 Update 函数 的 工作 机 制 ， 或 者 是 记 不 清 参 数 的 顺 
序 ， 就 可 以 像 下 面 这 样 做 : 


> db.foo.update 
function (query, obj, upsert, multi) { 
assert(query, "need a query"); 
assert(obj, "need an object"); 
this._validateObject(ob]j); 
this. mongo.update(this. fullName, query, obj, 
upsert ? true : false, multi ? true : false); 


2.7.2 ”使 用 shell 执 行 脚本 


本 书 其 他 章 都 是 以 交互 方式 使 用 shell， 但 是 也 可 以 将 希望 执行 的 
JavaScript 文 件 传 给 shell。 直 接 在 命令 行 中 传递 脚本 就 可 以 了 : 


$ mongo script1.js script2.js script3.js 
MongoDB shell version: 2.4.0 

connecting to: test 

I am script1.js 

I am script2.js 

I am script3.js 








mongo shell 会 依次 执行 传 入 的 脚本 ， 然 后 退出 。 


如 果 硕 望 使 用 指定 的 主机 / 端 ee 需要 先 指 定 地 
址 ， 然 后 再 跟 上 脚本 文件 的 名 称 


$ mongo --quiet server-1:30000/foo script1.js script2.js script3.js 


这 样 可 以 将 db 指 癌 server-1:30000 上 的 foo 数 据 库 ， 人 然后 执行 这 三 个 肢 
本 。 如 上 所 示 ， 运 行 shell 时 指定 的 命令 行 选项 要 出 现在 地 址 之 前 。 


可 以 在 脚本 中 使 用 Dy bs (stdout) ， 如 上 
面 的 脚本 所 示 。 这 样 就 可 以 在 shell 直 使 用 生 车 道 命令 。 如 果 将 shell 脚 本 的 
输出 管道 给 另 一 个 使 用 --quiet 选 项 的 命令 ， 就 可 以 让 shell 不 打 

印 *MongoDB shell version...” 提 示 。 


也 可 以 使 用 load() 函 数 ， 从 交互 式 shell 中 运行 脚本 : 


> load("script1.js") 
I am Script1.Jjs 
3 


在 脚本 中 可 以 访问 db 变量 ， 以 及 其 他 全 局 变量 。 然 而 ，shell 辅 助 函 数 
(比如 "use db" 和 "show collections") 不 可 以 在 文件 中 使 用 。 这 些 辅 
助 函 数 都 有 对 应 的 JavaScript 函 数 ， 如 表 2-1 所 示 。 


表 2-1 shell 辅 助 国 数 对 应 的 JavaScript 浮 数 


辅助 函数 

use foo db ,getSiste Eo 'foo") 

show dbs db.getMongo().getDBs() 
Show collections db.getcollectionNames() 


可 以 使 用 脚本 将 变量 注入 到 shell。 例 如 ， 可 以 在 脚本 中 简单 地 初始 化 一 
些 常用 的 辅助 函数 。 例 如 ， 下 面 的 脚本 对 于 本 书 的 复制 和 分 片 部 分 内 容 
非常 有 用 。 这 个 脚本 定义 了 一 个 connectTo() 函 数 ， 它 连接 到 指定 端口 
处 的 一 个 本 地 数据 库 ， 并 且 将 db 指向 这 个 连接 。 


// defineConnectTo.js 





























A 
* 连接 到 指定 的 数据 库 ， 并 且 将 db 指向 这 个 连接 


var connectTo = function(port, dbname) { 
if (!port) { 


port = 27017; 


} 

if (!dbname) { 
dbname = "test",， 

} 


db = connect("localhost:"+port+"/"+dbname); 
return db; 


如 果 在 shell 中 加 载 这 个 脚本 ，connectTo 了 水 数 束 可 以 使 用 了 。 


> typeof connectTo 

undefined 

> load('defineConnectTo.js') 
> typeof connectTo 

function 


除了 添加 辅助 函数 ， 还 可 以 使 用 脚本 将 通用 的 任务 和 管理 活动 自动 化 。 


默认 情况 下 ，shell 会 在 运行 shell 时 所 处 的 目录 中 查找 脚本 (可 以 使 

用 run("pwd") 命 令 查 看 ) 。 如 果 脚 本 不 在 当前 目录 中 ， 可 以 为 shell 指 定 
一 个 相对 路 径 或 者 绝对 路 径 。 例 如 ， 如 果 脚 本 放置 在 ~/my-scripts 目 录 
中 ， 可 以 使 用 load("/home/myUser/my- ee 
令 来 加 载 defineConnectTo.js。 注 意 ，1load 了 水 数 无 法 解析 ~ 符号 。 


也 可 以 在 shell 中 使 用 run( ) 函 数 来 执行 命令 行程 序 。 可 以 在 函数 参数 列 
表 中 指定 程序 所 需 的 参数 : 


> run("ls", "-1", "/home/myUser/my-scripts/") 

sh70352| -rw-r- - 1 myUser myUser 2012-12-13 13:15 defineConnectTo.js 
sh70532| -rw-r- - 1 myUser myUser 2013-02-22 15:10 script1.js 
sh70532| -rw-r- - 1 myUser myUser 2013-02-22 15:12 script2.js 
sh70532| -rw-r- - 1 myUser myUser 2013-02-22 15:13 script3.js 








1 1 1 1 
Ee ee J ge 
1 1 1 二 








通常 来 说 ， 这 种 使 用 方式 的 局 限 性 非常 大 ， 因 为 输出 格式 很 奇怪 ， 而 且 
不 文 持 管道 。 


2.7.3 ”创建 .mongorc.js 文 件 


如 果菜 些 脚本 会 被 频繁 加 载 ， 可 以 将 它们 添加 到 mongorc.js 文 件 中 。 这 
个 文件 会 在 启动 shell 时 自动 运行 


例如 ， 我 们 希望 启动 成 功 时 让 shell 显 示 一 句 欢迎 语 。 为 此 ， 我 们 在 用 户 
主 目录 下 创建 一 个 名 为 .mongorc.js 的 文件 ， 向 其 中 添加 如 下 内 容 : 


// mongorc.js 


var compliment = ["attractive", "intelligent", "like Batman"]; 
var index = Math.floor(Math.random( )*3); 


print("Hello, you're looking particularly "+compliment[index]+" today!"); 


然后 ， 当 启动 shell 时 ， 就 会 看 到 这 样 一 些 内 容 : 


$ mongo 

MongoDB shell version: 2.4.0- 

preconnecting to: test 

Hello, you're looking particularly like Batman today! 
> 








为 了 实用 ， 可 以 使 用 这 个 脚本 创建 一 些 目 己 第 要 的 金 局 变量 ， 或 者 是 为 
太 长 的 名 字 创 建 一 个 简短 的 别名 ， 也 可 以 重 写 内 置 的 函数 。.mongorc.js 
最 见 的 用 途 之 一 是 移 除 那些 比较 “危险 ”的 shell 辅 助 函数 。 可 以 在 这 里 集 
中 重 写 这 些 方法 ， 比 如 为 dropDatabase 或 者 deleteIndexes 等 辅助 疯 数 添 
加 no 选项 ， 或 者 取消 它们 的 定义 。 


var no = function() { 
print("Not on my watch."); 














// 禁止 删除 数据 库 
db,dropDatabase = DB,prototype,dropDatabase = no; 








// 禁止 删除 集合 
DBCollection.prototype.drop = no; 

















// 禁止 删除 索引 
DBCollection.prototype.dropIndex = no; 





2 要 确保 同时 对 db 变量 和 DB 原型 进行 改变 〈 如 上 例 所 
示 ) 。 如 果 只 改变 了 其 中 一 个 ， 那 么 db 变量 可 外 没有 改变 ， 或 者 这 些 改 
0 (运行 use _ anotherDB 命 令 ) 中 都 不 会 生效 。 


现在 ， 如 琳 试 图 调用 这 些 函 数 ， 就 会 得 到 一 条 错误 提示 。 注 意 ， 这 种 方 
式 并 不 能 保护 数据 库 免 受 恶 意 用 户 的 攻击 ， 只 能 预防 自己 的 手 误 。 


如 果 在 启动 shell 时 指定 --norc 参 数 ， 就 可 以 禁止 加 载 .mongorc.js。 








2.7.4 定制 shell 提 示 


将 prompt 变 量 设 为 一 个 字符 串 或 者 函数 ， 束 可 以 重 写 默认 的 shell 提 示 。 
例如 ， 如 采 正 在 运行 一 个 需要 耗 时 几 分 钟 的 查询 ， 你 可 能 和 希望 完成 时 在 
shell 提 示 中 输出 当前 时 间 ， 这 样 就 可 以 知道 最 后 一 个 操作 的 完成 时 间 
和 








prompt = function() { 
return (new Date())+"> "， 
}; 


另 一 个 方便 的 提示 是 显示 当前 使 用 的 数据 库 : 


prompt = function() { 
if (typeof db == 'undefined') { 
return '(nodb)> '; 





// 检查 最 后 的 数据 库 操作 
try { 
db.runCcommand( {getLastError:1}); 


} 

catch (e) { 
print(e); 

} 


return db+"> "; 


注意 ， 提 示 函 数 应 该 返回 字符 串 ， 而 且 应 该 小 心 谨慎 地 处 理 异 向: 如 果 
提示 中 出 现 了 异常 会 对 用 户 造 成 困惑 ! 


通常 来 说 ， 提 示 函 数 中 应 该 包含 对 getLastError 的 调用 。 这 样 可 以 捕获 
数据 库 错 误 ， 而 且 可 以 在 shell 断 开 时 自动 重新 连接 (比如 重启 了 


mongod) 。 


可 以 在 .mongorc.js 中 定制 目 己 想 要 的 提示 。 也 可 以 定制 多 个 提示 ， 在 
shell 中 可 以 自由 切换 。 


2.7.5 ”编辑 复合 变量 


shell 的 多 行文 持 是 非常 有 限 的 : 不 可 以 编辑 之 前 的 行 。 如 果 编 辑 到 第 15 
行 时 发 现 第 1 行 有 个 错误 ， 那 会 让 人 非常 愧 恼 。 因 此 ， 对 于 大 块 的 代码 




















或 者 是 对 象 ， 你 可 能 更 愿意 在 编辑 器 中 编辑 。 为 了 方便 地 调用 编辑 器 ， 
可 以 在 shell 中 设置 EpITOR 变 量 (也 可 以 在 环境 变量 中 设置 ): 


> EDITOR="/UusSr/bin/emacs" 


现在 ， 如 果 想 要 编辑 一 个 变量 ， 可 以 使 用 "edit 变量 名 "这 个 命令 ， 比 
如 : 





> Var wap = db.books.findone({title: "War and Peace"}) 
> edit wap 


修改 完成 之 后 ， 保 存 并 退出 编辑 器 。 变 量 就 会 被 重新 解析 然后 加 载 回 
shell。 





在 .mongorc.js 文 件 中 添加 一 行内 容 ，EDITOR=" 编 辑 器 路 径 ";， 以 后 就 不 必 
单独 设置 EpITOR 变 量 了 。 


2.7.6 ”集合 命名 注意 事项 


可 以 使 用 db.collectionName 获 取 一 个 集合 的 内 容 ， 但 是 ， 如 果 集 合 名 称 
中 包含 保留 字 或 者 无 效 的 JavaScript 属 性 名 称 ，db.collectionName 束 不 
能 正常 工作 了 。 


假设 要 访问 version 人 集合， 不 能 直接 使 用 db.version， 因 为 db.version 
是 db 的 一 个 方法 (会 返回 当前 MongoDB 服 务 右 的 版 本 ) : 


> db.version 
function () 

return this.serverBuildInfo().version,; 
} 
































为 了 访问 version 集 合 ， 必 须 使 用 getcollection 函 数 : 


> db.getCollection("version"); 
test,Vversilion 


如 果 集 合 名 称 中 包含 无 效 的 JavaScript 属 性 名 称 〈 比 如 foo-bar-baz 和 
123abc) ， 也 可 以 使 用 这 个 函数 来 访问 相应 的 集合 。“〈 注 意 ，JavaScript 
属性 名 称 只 能 包含 字母 、 数 字 ， 以 及 "$s" 和 "_" 字 符 ， 而 且 不 能 以 数字 开 





es 
还 有 一 种 方法 可 以 访问 以 无 效 属性 名 称 命名 的 集合 ， 那 就 是 使 用 数组 访 
问 语法 : 在 JavaScript 中 ，x.y 等 同 于 x['y']。 也 惑 是 说 ， 除 了 名 称 的 字 
面 量 之 外 ， 还 可 以 使 用 变量 访问 子 集合 。 因 此 ， 如 果 需 要 对 blog 的 每 一 
个 子 集合 进行 操作 ， 可 以 使 用 如 下 方式 进行 碗 代 : 

var collections = ["posts", "comments", "authors"]; 


for (var i in collections) { 
print(db.blog[collections[i]]); 
} 


print(db.blog.posts); 
print(db.blog.comments); 
print(db.blog.authors); 


注意 ， 不 能 使 用 db.blog.i， 这 样 会 被 解释 为 test.blog.i， 而 不 是 
test.blog.posts。 必须 使 用 db.blog[i] 语 法 才能 将 i 解释 为 相应 的 变量 。 
可 以 使 用 这 种 方式 来 访问 那些 名 字 怪 异 的 集合 : 


> Var name = "@#&!" 
> db[name] .find() 


直接 使 用 db.@#&! 进 行 查 询 是 非法 的 ， 但 是 可 以 使 用 db[name]。 


第 3 草 ”创建 、 更 新 和 删除 文档 

本 音 会 介绍 对 数据 库 移入 /移出 数据 的 基本 操作 ， 具 体 包含 如 下 操作 ; 
向 集合 添加 新 文档 ; 

从 集合 里 删除 文档 ; 

更 新 现 有 文档 ; 

为 这 些 操作 选择 合适 的 安全 级 别 和 速度 。 

3.1 插入 并 保存 文档 


插入 是 向 MongoDB 中 添加 数据 的 基本 方法 。 可 以 使 用 insert 方 法 向 目标 
集合 插入 一 个 文档 : 


> db.foo.insert({"bar" : "baz"}) 
这 个 操作 会 给 文档 自动 增加 一 个 "_id" 键 (要 是 原来 没有 的 话 ) ， 然 后 
将 其 保存 到 MongoDB 中 。 
3.1.1 批量 插入 


如 末 要 癌 集合 中 插入 多 个 文档 ， 使 用 批量 插入 会 快 一 些 。 使 用 批量 插 
入 ， 可 以 将 一 组 文档 传递 给 数据 库 。 


在 shell 中 ， 可 以 使 用 batchInsert 函 数 实现 批量 插入 ， 它 与 insert 函 数 非 
常 像 ， 只 是 它 接受 的 是 一 个 文档 数组 作为 参数 : 


> db.foo.batchInsert([{"_id"” : 0}, {"_id"” :; 1}, {"_id" :; 2}]) 
> db.foo.find() 








{ "id" :0} 
{ "id" :1} 
{ "id" : 2} 


一 次 发 送 数 十 、 数 百 旋 至 数 千 个 文档 会 明显 提高 插入 的 速度 。 


只 有 需要 将 多 个 文档 插入 到 一 个 集合 时 ， 这 种 方式 才 会 有 用 。 不 能 在 单 
次 请 求 中 将 多 个 文档 批量 插入 到 多 个 集合 中 。 要 是 只 导入 原始 数据 〈 例 














如 ， 从 数据 feed 或 者 MySQL 中 导入 ) ， 可 以 使 用 命令 行 工 具 ， 如 
mongoimport， 而 不 是 批量 插入 。 男 一 方面 ， 可 以 使 用 批量 插入 在 将 数 
据 存 入 MongoDB 之 前 对 数据 做 一 些小 的 修整 (将 日 期 转换 为 日 期 类 
型 ， 或 添加 自 定 义 的 "_id") ， 这 样 批量 插入 也 可 用 于 导入 数据 。 


当前 版 本 的 MongoDB 能 接受 的 最 大 消息 长 度 是 48 MB， 所 以 在 一 次 批量 
插入 中 能 插入 的 文档 是 有 限制 的 。 如 果 试 图 插入 48 MB 以 上 的 数据 ， 多 
数 驱 动 程序 会 将 这 个 批量 插入 请 求 拆 分 为 多 个 48 MB 的 批量 插入 请 求 。 
具体 可 以 查看 所 使 用 的 驱动 程序 的 相关 文档 。 


如 末 在 执行 批量 插入 的 过 程 中 有 一 个 文档 插入 失败 ， 那 么 在 这 个 文档 之 
， 而 这 个 文档 以 及 之 后 的 所 有 文档 
部 插入 失败 。 


> db.foo.batchInsert([{" id" : 0}, {"_id" : 1}, {"_id" : 1}, {"_id" : 2}]) 














只 有 前 两 个 文档 会 被 插入 ， 因 为 插入 第 三 个 文档 时 会 及 生 错 误 : 集合 中 
已 经 存在 一 个 _id 为 1 的 文档 ， 不 能 重复 插入 。 


在 批量 插入 中 过 到 错误 时 ， 如 果 希 望 bpatchInsert 忽 略 错 误 并 且 继 续 执 
行 后 续 插 入 ， 可 以 使 用 continueonError 选 项 。 这 样 就 可 以 将 上 面 例子 中 
的 第 一 个 、 第 三 个 以 及 第 四 个 文档 都 插入 到 集合 中 。Shell 并 不 支持 这 个 
选项 ， 但 是 所 有 驱动 程序 都 支持 。 


3.1.2 插入 校 验 


插入 数据 时 ，MongoDB 只 对 数据 进行 最 基本 的 检查 : 检查 文档 的 基本 
结构 ， 如 果 没 有 "_id" 字 段 ， 就 自动 增加 一 个 。 检 查 大 小 就 是 其 中 一 项 
基本 结构 检查 : 所 有 文档 都 必须 小 于 16 MB 这 个 值 是 MongoDB 设 计 者 
人 为 定 的 ， 未 来 有 可 能 会 增加 〉 。 作 这 样 的 限制 主要 是 为 了 防止 不 民 的 
模式 设计 ， 并 且 保 证 性 能 一 致 。 如 果 要 得 看 doc 文 档 的 BSON 大 小 《单位 
为 字 节 ) ， 可 以 在 shell 中 执行 object.bsonsize(doc)。 


16 MB 的 数据 究竟 有 多 大 ? 要 知道 整 部 《战争 与 和 平 》 也 才 3.14 MB。 
由 于 MongoDB 只 进行 最 基本 的 检查 ， 所 以 插入 非法 数据 很 容易 〈 如 果 


你 想 这 么 干 的 话 ) 。 因 此 ， 应 该 只 允许 信任 的 源 《 比 如 你 的 应 用 程序 服 
务 嚣 〉 连接 数据 库 。 主 流 语言 的 所 有 驱动 程序 〈 以 及 大 部 分 其 他 语言 的 




















驱动 程序 ) ， 都 会 在 将 数据 插入 到 数据 库 之 前 做 大 量 的 数据 校 验 《〈 比 如 
文档 是 于 过 大 ， 文 档 是 舍 包 合 非 UTF-8 字 符 串 ， 是 从 使 用 个 可 识 列 的 类 
而 站。 

3.2 删除 文档 


现在 数据 库 中 有 些 数据 ， 要 删除 它 : 


> db.foo,remove( ) 








上 述 命令 会 删除 foo 集 合 中 的 所 有 文档 。 但 古 不 会 删除 集合 本 号 ， 也 不 
会 删除 集合 的 元 信息 。 


remove 冰 数 可 以 接受 一 个 查询 文档 作为 可 选 参 数 。 给 定 这 个 参数 以 后 ， 


只 有 符合 条 件 的 文档 才 被 删除 。 例 如 ， 假 设 要 删除 mailing.list 集 合 中 所 
有 "opt-out" 为 true 的 人 : 


> db.mailing.1list,.remove({"opt-out" : true}) 


删除 数据 是 永久 性 的 ， 不 能 撤销 ， 也 不 能 恢复 。 
删除 速度 


删除 文档 通常 很 快 ， 但 是 如 果 要 清空 整个 集合 ， 那 么 使 用 drop 直 接 删 除 
集合 会 更 快 〈 然 后 在 这 个 空 集合 上 重建 各 项 索引 ) 。 


例如 ， 使 用 如 下 方法 插入 一 百 万 个 测试 数据 : 


> for (var i = 0; i < 1000000; i++) { 
... db.tester.insert({"foo": "bar", "baz": i, "z": 10 - i}) 


.. } 








0 
删除 : 
> var timeRemoves = function() { 


.. Var start = (new Date()).getTime(); 


.. db.tester.remove(); 
.. db.findone(); // makes sure the remove finishes before continuing 


.. Var timeDiff = (new Date()).getTime() - Start 
.. print("Remove took: "+timeDiff+"ms") ， 


Sak 
> timeRemoves( ) 


在 MacBookAir 笔 记 本 电脑 上 ， 这 段 脚 本 输出 “Removetook:9676ms”。 


如 果 用 db.tester.drop() 代 蔡 remove 和 findone， 只 用 1 ms! 速度 提升 相 
当 明 显 ， 但 也 是 有 代价 的 : 不 能 指定 任何 限定 条 件 。 整 个 集合 都 被 删除 
了 ， 所 有 元 数据 也 都 不 见 了 。 


3.3 ”更 新 文档 

文档 存 入 数据 库 以 后 ， 就 可 以 使 用 update 方 法 来 更 新 它 。update 有 两 个 
参数 ， 一 个 是 查询 文档 ， 用 于 定位 需要 更 新 的 目标 文档 ; 另 一 个 是 修改 
器 (modifier〉 文档 ， 用 于 说 明 要 对 找到 的 文档 进行 哪些 修改 。 

更 新 操作 是 不 可 分 割 的 : 和 若是 两 个 更 新 同时 发 生 ， 先 到 达 服 务 器 的 先 执 
行 ， 接 着 执行 另外 一 人 个。 所以， 两 个 需要 同时 进行 的 更 新 会 迅速 接连 完 
成 ， 此 过 程 不 会 破坏 文档 : 最 新 的 更 新 会 取得 “胜利 ”。 

3.3.1 文档 蔡 换 


最 简单 的 更 新 就 是 用 一 个 新 文档 完全 蔡 换 匹 配 的 文档 。 这 适用 于 进行 大 
声 模 模式 迁移 的 情况 。 例 如 ， 要 对 下面 的 用 户 文 档 做 一 个 比较 大 的 调 























{ 
"_id" : ObjectId("4b2b9f67a1if631733d917a7a")， 
name" : "joe", 
"friends" : 32, 
"enemies" : 2 
} 


我 们 希望 将 "friends" 和 "enemies" 两 个 字段 移 到 "relationships" 子 文档 


中 。 可 以 在 shell 中 改变 文档 的 结构 ， 然 后 使 用 update 蔡 换 数据 库 中 的 当 
前 文档 : 
> Var joe = db.users.findOone({"name" : "joe"}); 


> joe.relationships = {"friends" : joe.friends, "enemies" : joe.enemies}; 


"friends" : 32, 
"enemies" : 2 

}> joe.username = joe.name; 

"joe" 

> delete joe.friends,; 

true 

> delete joe.enemies,; 

true 

> delete joe.name,; 

true 

> db.users.update({"name" : "joe"}, joe); 


现在 ， 用 findone 查 看 更 新 后 的 文档 结构 。 


{ 
"_id" : ObjectId("4b2b9f67a1if631733d917a7a")， 
"Username" : "joe", 
"relationships" : { 
"friends" : 32, 
"enemies" :; 2 
} 
} 


一 个 常见 的 错误 是 查询 条 件 匹 配 到 了 多 个 文档 ， 然 后 更 新 时 由 于 第 二 个 
0 
会 更 新 。 


例如 ， 有 好 几 个 文档 都 有 相同 的 "name" 值 ， 但 是 我 们 没有 意识 到 : 


> db.people.find() 





{"_id" : ObjectId("4b2b9f67a1if631733d917a7b"), "name" :; "joe", "age" : 65}, 
{"_id" : ObjectId("4b2b9f67a1if631733d917a7c"), "name" :; "joe", "age" : 20}, 
{"_id" : ObjectId("4b2b9f67a1if631733d917a7d"), "name" :; "joe", "age" : 49}, 


现在 如 果 第 二 个 Joe 过 生日 ， 要 增加 "age" 的 值 ， 我 们 可 能 会 这 么 做 : 


> joe = db.people.findone({"name" : "joe", "age" : 20}); 
"_id" : ObjectId("4b2b9f67a1if631733d917a7c")， 
name" "joe", 
"age" : 20 

} 

> joe.aget+; 

> db.people.update({"name" : "joe"}, joe); 


E11001 duplicate key on update 


到 撒 怎 么 了 ? 调用 update 时 ， 数 据 库 会 查找 一 个 "name" 值 为 "Joe" 的 文 





档 。 找 到 的 第 一 个 是 65 岁 的 Joe。 然 后 数据 库 试 着用 变量 joe 中 的 内 容 侍 
换 找到 的 文档 ， 但 是 会 发 现 集 合 里 面 已 经 有 一 个 具有 同样 "_id" 的 文档 。 
所 以 ， 更 新 就 会 失败 ， 因 为 "_id" 值 必须 唯一 。 为 了 避免 这 种 情况 ， 最 
好 确保 更 新 时 总 是 指定 一 个 唯一 文档 ， 例 如 使 用 "_ig" 这 样 的 键 来 匹 
配 。 对 于 上 面 的 例子 ， 这 才 是 正确 的 更 新 方法 : 


> db.people.update({"_id" : ObjectId("4b2b9f67a1if631733d917a7c")}, joe) 











使 用 "id" 作 为 查询 条 件 比 使 用 随机 字段 速度 更 快 ， 因 为 是 通过 "_id" 建 
芯 的 索引 。 第 5 章 会 介绍 索引 对 更 新 和 其 他 操作 的 影响 。 


3.3.2 ”使 用 修改 器 


通常 文档 只 会 有 一 部 分 要 更 新 。 可 以 使 用 原子 性 的 更 新 修改 项 (update 
modifier) ， 指 定 对 文档 中 的 茶 些 字段 进行 更 新 。 更 新 修改 器 是 种 特殊 
的 键 ， 用 来 指定 复杂 的 更 新 操作 ， 比 如 修改 、 增 加 或 者 删除 键 ， 还 可 能 
古 操 作 数 组 或 者 内 购 文 档 。 


假设 要 在 一 个 集合 中 放置 网 站 的 分 析 数 据 ， 只 要 有 人 访问 页 面 ， 就 增加 
计数 占 。 可 以 使 用 更 新 修改 占 原 子 性 地 完成 这 个 增加 。 每 个 URL 及 对 应 
的 访问 次 数 都 以 如 下 方式 存储 在 文档 中 : 














人 
"_id" : ObjectId("4b253b067525f35f94b60a31")， 
"url" :; "www.example.com", 
"pageviews" : 52 

} 


每 次 有 人 访问 页 面 ， 束 通过 URL 找 到 该 页 面 ， 并 用 "$inc" 修 改 右 增 
加 "pageviews" 的 值 。 


> db.analytics.update({"url" : "www.example.com"}, 
.. {"$inc" : {"pageviews" : 1}}) 


现在 ， 执 行 一 个 find 操 作 ， 会 及 现 "pageviews" 的 值 增加 了 1。 
> db.analytics.find() 
{ 
"_id" : ObjectId("4b253b067525f35f94b60a31")， 


"url" :; "www.example.com", 
"pageviews" : 53 


使 用 修改 器 时 ，"_id" 的 值 不 能 改变 。 注意， 整个 文档 珍 换 时 可 以 改 
变 "_id"。) 其 他 键 值 ， 包 括 其 他 唯一 索引 的 键 ， 都 是 可 以 更 改 的 。 


1. "$set" 修 改 器 入 门 
"$set" 用 来 指定 一 个 字段 的 值 。 如 果 这 个 字段 不 存在 ， 则 创建 它 。 这 对 
更 新 模式 或 者 增加 用 户 定义 的 键 来 说 非常 方便 。 例如， 用 户 资 料 存 储 在 
下 面 这 样 的 文档 里 : 

> db.users.findone() 


"_id" : ObjectId("4b253b067525f35f94b60a31" ) ， 


name" : "joe", 
"age" : 30, 
Mos@x" 各 male" 
站 
"location" : "Wisconsin" 


非常 简要 的 一 段 用 户 信 息 。 要 想 添加 喜欢 的 书籍 进去 ， 可 以 使 
用 "$set": 


> db.users.update({"_id" : ObjectId("4b253b067525f35f94b60a31")}, 
, {"$set" : {"favorite book" : "War and Peace"}}) 





之 后 文档 就 有 了 "favorite book" 键 。 


> db.users.findone() 


{ 
"_id" : ObjectId("4b253b067525f35f94b60a31")， 
name" : "joe", 
"age" : 30, 
"sex" : "male", 
"location" : "Wisconsin", 
"favorite book" : "War and Peace" 
} 











要 是 用 户 和 觉得 喜欢 的 其 实 是 另外 一 本 书 ，"$set" 又 能 帮 上 人 忙 了 : 


> db.users.update({"name" : "joe"}, 
,， {"$set" : {"favorite book" : "Green Eggs and Ham"}}) 











用 "$set" 甚 至 可 以 修改 键 的 类 型 。 例 如 ， 如 果 用 户 觉 得 喜欢 很 多 本 书 ， 
束 可 以 将 "favorit ebook" 键 的 值 变 成 一 个 数组 : 


> db.users.update({"name" : "joe"}, 
, {"$set" : {"favorite book" : 
["Cat's Cradle", "Foundation Trilogy", "Ender's Game"]}}) 


如 果 用 户 突然 发 现 目 己 其 实 不 爱 该 书 ， 可 以 用 "$unset" 将 这 个 键 完 全 删 
除 : 


> db.users.update({"name" :; "joe"}, 
, {"$unset" : {"favorite book" : 1}}) 








现在 这 个 文档 就 和 刚 开 始 时 一 样 了 。 
也 可 以 用 "$set" 修 改 内 骨 文 档 : 


> db.blog.posts.findone() 
{ 
"_id" : ObjectId("4b253b067525f35f94b60a31")， 


"title" : "A Blog Post", 
"content™ : ",...", 
"author"” :; { 
name" 9 "joe", 
"email" : "joe@example.com" 
} 
> db.blog.posts.update({"author.name™" : "joe"}, 
, {"$set" : {"author.name" : "joe schmoe"}}) 


> db.blog.posts.findone() 
{ 


"_id" : ObjectId("4b253b067525f35f94b60a31")， 
"title" : "A Blog Post", 
"content™ :; ",...", 
"author"” :; { 
"name" ; "joe schmoe", 
"email" : "joe@example.com" 


增加 、 修 改 或 删除 键 时 ， 应 该 使 用 $ 修 改 器 。 要 把 "foo" 的 值 设 
为 "bar"， 和 常见 的 错误 做 法 如 下 : 


> db.coll.update(criteria, {"foo" : "bar"}) 


这 会 事与愿违 。 实 际 上 这 会 将 整个 文档 用 {"foo":"bar"} 蔡 换 掉 。 一 定 


要 使 用 以 $ 开 头 的 修改 圳 来 修改 键 / 值 对 。 
2. 增加 和 减少 


"$inc" 修 改 吉 用 来 增加 已 有 键 的 值 ， 或 者 该 键 不 存在 那 就 创建 一 个 。 对 
于 更 新 分 析 数 据 、 因 果 关 系 、 投 票 或 者 其 他 有 变化 数值 的 地 方 ， 使 用 这 
个 都 会 非常 方便 。 

假如 建立 了 一 个 游戏 集合 ， 将 游戏 和 变化 的 分 数 都 存储 在 里 面 。 比 如 用 
尸 玩 弹 球 (pinball〉 游 戏 ， 可 以 插入 一 个 包含 游戏 名 和 玩家 的 文档 来 标 
识 不 同 的 游戏 : 


> db.games.insert({"game" :; "pinball", "user" : "joe"}) 
是 小 球 撞 到 了 砖 块 ， 就 会 给 玩家 加 分 。 分 数 可 以 随便 给 ， 这 里 就 把 玩 
得 分 基数 约定 成 50 好 了 。 使 用 "$inc" 修 改 需 给 玩家 加 50 分 : 


> db.games.update({"game" : "pinball", "user" : "joe"}, 
.. {"$inc" : {"score" : 50}}) 


要 
er 
家 


更 新 后 ， 可 以 看 到 : 
> db.games.findone() 
{ 


"_id" :; ObjectId("4b2d75476cc613d5ee930164")，, 


"game™" : "pinball", 
"user" "joe", 
"score" : 50 


} 
分 数 (score) 键 原来 并 不 存在 ， 所 以 "$inc" 创 建 了 这 个 键 ， 并 把 值 设 定 
成 增加 量 : 50。 


如 果 小 球 落 入 加 分 区 ， 要 加 10 000 分 。 只 要 给 "$inc" 传 递 一 个 不 同 的 值 
束 好 了 : 


> db.games.update({"game" : "pinball", "user" : "joe"}, 
.. {"$inc" : {"score" : 10000}}) 


现在 来 看 看 结果 : 


> db.games.find() 
{ 


"_id" : ObjectIid("4b2d75476cc613d5ee930164")， 
"game™" : "pinball", 

"user" : "joe", 

"score" : 10050 





"score" 键 已 经 有 了 ， 而 且 有 一 个 数字 类 型 的 值 ， 所 以 服务 器 就 给 这 个 
值 增加 了 10 000。 


"$inc" 与 "$set" 的 用 法 类 似 ， 束 是 专门 来 增加 (和 减少 ， 数 子 
的 。"$inc" 只 能 用 于 整 型 、 长 整 型 或 双 精 度 浮 点 型 的 值 。 要 是 用 在 其 他 
类 型 的 数据 上 就 会 导致 操作 失败 ， 例 如 null、 布 尔 类 型 以 及 数字 构成 的 
字符 串 ， 而 在 其 他 很 多 语言 中 ， 这 些 类 型 都 会 自动 转换 为 数值 类 型 。 

> db.foo.insert({" count”: "1" 


}) 
> db.foo.update({}, {"$inc" : {"count" :; 1}}) 
Cannot apply $inc modifier to non-number 





另外 ，"$inc" 键 的 值 必须 为 数字 。 不 能 使 用 字符 串 、 数 组 或 其 他 非 数字 
的 值 。 否 则 就 会 提示 “Modifier"$inc"allowed for numbers only”( 修 改 
器 "$inc" 只 人 允许 使 用 数值 类 型 ) 这 样 的 错误 。 要 修改 其 他 类 型 ， 应 该 使 
用 "$set'" 或 者 一 会 儿 要 讲 到 的 数组 修改 器 。 


3. 数组 修改 器 


有 一 大 类 很 重要 的 修改 器 可 用 于 操作 数组 。 数 组 是 常用 旦 非常 有 用 的 数 
据 结 构 : 它们 不 ” 仅 是 可 通过 索引 进行 引用 的 列表 ， 而 且 还 可 以 作为 数 
据 集 (set) 来 用 。 


4. 添加 元 素 


如 果 数 组 已 经 存在 ，"$push" 会 向 已 有 的 数组 末尾 加 入 一 个 元 素 ， 要 是 
没有 就 创建 一 个 新 的 数组 。 例 如 ， 假 设 要 存储 博客 文章 ， 要 添加 一 个 用 
于 保存 数组 的 "comments" 评论) 键 。 可 以 同 还 不 存在 的 "comments" 数 
组 添加 一 条 评论 ， 这 个 数组 会 被 自动 创建 ， 并 加 入 一 条 评论 : 


> db.blog.posts.findone() 














"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"title" : "A blog post", 


"content™ : "..." 


} 
> db.blog.posts.update({"title" :; "A blog post"}, 
{"$push" ; {"comments" 
{"name" :; "joe", "email" :; "joeQ@example.com", 
"content" : "nice post."}}}) 


> db.blog.posts.findone() 


"_id" : ObjectId("4b2d75476cc613d5ee930164" )， 


"title" : "A blog post", 

"content™ : ",...", 

"comments" : [ 
"name" : "joe", 
"email" : "joe@example.com", 
"content" : "nice post." 

} 
] 


要 是 还 想 添加 一 条 评论 ， 继 续 使 用 "$push": 


> db.blog.posts.update({"title" :; "A blog post"}, 
{"$push" ; {"comments" 
{"name" : "bob", "email" : "bob@example.com", 
"content" : "good post."}}}) 


> db.blog.posts.findone() 


"_id" : ObjectId("4b2d75476cc613d5ee930164")， 


"title" : "A blog post", 
"content™ : "...", 
"comments" : [ 
{ 
name" . "joe", 
"email" : "joe@example.com", 
"content" : "nice post." 
}, 
{ 
"name" : "bob", 
"email" : "bob@example.com", 
"content" : "good post." 
} 
] 


这 是 一 种 比较 简单 的 "$push" 使 用 形式 ， 也 可 以 将 它 应 用 在 一 些 比较 复 
使 用 "$each" 子 操作 符 ， 可 以 通过 一 次 "$push" 操 作 添 
0 多 个 但 。 


> db.stock.ticker.update({"_id" :; "G00G"}, 
{"$push" : {"hourly" : {"$each" : [562.776, 562.790, 559.123]}}}) 


这 样 就 可 以 将 三 个 新 元 素 添 加 到 数组 中 。 如 果 指 定 的 数组 中 只 含有 一 个 
元 素 ， 那 这 个 操作 就 等 同 于 没有 使 用 "$each" 的 普通 "$push" 操 作 。 


如 果 和 希望 数组 的 最 大 长 度 是 固定 的 ， 那 么 可 以 将 "$slice" 和 "$push" 组 合 
在 一 起 使 用 ， 这 样 就 可 以 保证 数组 不 会 超出 设 定 好 的 最 大 长 度 ， 这 实际 
上 就 得 到 了 一 个 最 多 包含 N 个 元 素 的 数组 : 


> db.movies.find({"genre" :; "horror"}, 
.. {"$push" : {"top1i0" : { 
"$each™" : ["Nightmare on Elm Street", "Saw"], 
"$slice" :; -10}}}) 


这 个 例子 会 限制 数组 只 包含 最 后 加 入 的 10 个 元 素 。"$slice" 的 值 必须 是 


负 整数 。 





如 果 数 组 的 元 素数 量 小 于 10 〈"$push" 之 后 ) ， 那 么 所 有 元 素 都 会 保 
留 。 如 果 数 组 的 元 素数 量 大 于 10， 那 么 只 有 最 后 10 个 元 素 会 保留 。 因 
此 ，"$slice" 可 以 用 来 在 文档 中 创建 一 个 队列 。 


最 后 ， 可 以 在 清理 元 系 之 前 使 用 "$sort"， 只 要 癌 数 组 中 添加 子 对 象 就 


需要 清理 : 








> db.movies.find({"genre" : "horror"}, 
, {"$push" :; {"top1i0" :; { 
"$each™" : [{"name" : "Nightmare on Elm Street", "rating" : 6.6}, 
{"name" : "Saw", "rating" :; 4.3}], 
"$slice" : -10, 
"$sort™" : {"rating" : -1}}}}) 


这 样 会 根据 "rating" 字 段 的 值 对 数组 中 的 所 有 对 象 进 行 排序 ， 然 后 保留 
前 10 个 。 注 意 ， 不 能 只 将 "$slice" 或 者 "$sort" 与 "$push" 配 合 使 用 ， 且 
必须 使 用 "$each"。 


5. 将 数组 作为 数据 集 使 用 


你 可 能 想 将 数组 作为 集合 使 用 ， 保 证 数组 内 的 元 素 不 会 重复 。 可 以 在 碍 
询 文 档 中 用 "$ne" 来 实现 。 例 如 ， 要 是 作者 不 在 引文 列表 中 ， 就 添加 进 
去 ， 可 以 这 么 做 : 


> db.papers.update({"authors cited" : f{"$ne" : "Richie"}}, 
.. {$push : {"authors cited" : "Richie"}}) 


也 可 以 用 "$addToset" 来 实现 ， 要 知道 有 些 情 况 "$ne" 根 本 行 不 通 ， 有 些 
时 候 更 适合 用 "$addToSet"。 


例如 ， 有 一 个 表示 用 户 的 文档 ， 已 经 有 了 电子 邮件 地 址 的 数据 集 : 


> db.users.findone({"_id" : ObjectId("4b2d75476cc613d5ee930164")}) 





{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"username" : "joe", 
"emails" :; [ 
"joe@example.com", 
"joe@gmail.com", 
"joe@yahoo.com" 
] 
} 


添加 新 地 址 时 ， 用 '"$addToset" 可 以 避免 插入 重复 地 址 : 


> db.users.update({"_id" : ObjectId("4b2d75476cc613d5ee930164")}, 
, {"$addToSet" : {"emails" : "joe@gmail.com"}}) 
db.users.findone({"_id" : ObjectId("4b2d75476cc613d5ee930164")}) 


V - 


"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"Username" : "joe", 
"emails" :; [ 

"joe@example.com", 

"joe@gmail.com", 

"joe@yahoo.com", 


] 


db.users.update({"_id" : ObjectId("4b2d75476cc613d5ee930164")}, 
, {"$addToSet" : {"emails" : "joe@hotmail.com"}}) 
db.users.findone({"_id" : ObjectId("4b2d75476cc613d5ee930164")}) 


V cm 


V - 


"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"username" : "joe", 
"emails" :; [ 

"joe@example.com", 

"joe@gmail.com", 

"joe@yahoo.com", 

"joe@hotmail.com" 


将 "$addToset" 和 "$each" 组 合 起 来 ， 可 以 添加 多 个 不 同 的 值 ， 而 
用 "$ne" 和 "$push" 组 合 就 不 能 实现 。 例 如 ， 想 一 次 添加 多 个 邮件 地 址 ， 
束 可 以 使 用 这 些 修改 器 : 

> db.users.update({"_id" : ObjectId("4b2d75476cc613d5ee930164")}, {"$addToSet" : 


， {"emails" : {"$each" : 
["joe@php.net", "joe@example.com", "joe@python.org"]}}}) 


> db.users.findone({"_id" : ObjectId("4b2d75476cc613d5ee930164")}) 
{ 


"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"Username" : "joe", 
"emails" :; [ 

"joe@example.com", 

"joe@gmail.com", 

"joe@yahoo.com", 

"joe@hotmail.com" 

"joe@php.net" 

"joe@python.org" 


6. 删除 元 素 


有 几 个 从 数组 中 删除 元 素 的 方法 。 寿 是 把 数组 看 成 队列 或 者 栈 ， 可 以 
用 "$pop"， 这 个 修改 器 可 以 从 数组 任何 一 端 删除 元 素 。{f"$pop": 
{"key":1}} 从 数组 末尾 删除 一 个 元 素 ，{f"$pop" :fkey" -1} 则 从 头 部 删 
除 。 





有 时 需要 基于 特定 条 件 来 删除 元 素 ， 而 不 仅仅 是 依据 元 素 位 置 ， 这 时 可 
以 使 用 "$pul1"。 例 如 ， 有 一 个 无 序 的 待 完成 事项 列表 : 


> db.1lists.insert({"todo" : ["dishes", "laundry", "dry cleaning"]}) 


要 是 想 把 洗衣 服 (laundry〉 放 到 第 一 位 ， 可 以 从 列表 中 先 把 它 删 掉 : 


> db.lists.update({}, {"$pull" : {"todo" : "laundry"}}) 





通过 奉 找 ， 会 及 现 只 有 两 个 元 素 了 : 


> db,1lists.find() 
{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"todo" :; [ 
"dishes", 
"dry cleaning" 


"$pul1" 会 将 所 有 匹配 的 文档 删除 ， 而 不 是 只 删除 一 个 。 对 数组 [112,1] 
执行 pull 1， 结 果 得 到 只 有 一 个 元 素 的 数组 2。 


数组 操作 符 只 能 用 于 包含 数组 值 的 键 。 例 如 ， 不 能 将 一 个 整数 插入 数 
0 
"$inc"。 


7. 基于 位 置 的 数组 修改 天 
自古 数组 有 多 个 值 ， 而 我 们 只 想 对 其 中 的 一 部 分 进行 操作 ， 融 需要 一 些 


技巧 。 有 两 种 方法 操作 数组 中 的 值 ， 通 过 位 置 或 者 定位 操作 符 
Cs 


数组 下 标 痢 是 以 0 开头 的 ， 可 以 将 下 标 直 接 作为 键 来 选择 元 系 。 例 如 ， 
这 里 有 个 文档 ， 其 中 包含 由 内 髓 文档 组 成 的 数组 ， 比 如 包含 评论 的 博客 
文章 。 


> db.blog.posts.findone() 
{ 








"_id" : ObjectId("4b329a216cc613d5ee930192")， 
"content™ : "...", 


"comments" : [ 

"comment" : "good post", 
"author™" : "John", 
"votes" : 0 

}, 

{ 
"comment" : "i thought it was too short", 
"author" : "Claire", 
"votes" : 3 

}, 

{ 
"comment" : "free watches", 
"author" :; "Alice", 
"votes" :; -1 

} 


如 果 想 增加 第 一 个 评论 的 投票 数量 ， 可 以 这 么 做 : 


> db.blog.update({"post" : post_id}, 
.. {"$inc" : {"comments.0.votes" : 1}}) 











但 是 很 多 情况 下 ， 不 预先 查询 文档 就 不 能 知道 要 修改 的 数组 的 下 标 。 为 
了 克服 这 个 困难 ，MongoDB 提 供 了 定位 操作 符 "$"， 用 来 定位 查询 文档 
已 经 匹配 的 数组 元 素 ， 并 进行 更 新 。 例 如 ， 要 是 用 户 John 把 名 字 改 成 了 








Jim， 就 可 以 用 定位 符 葡 换 他 在 评论 中 的 名 字 : 


db.blog.update({"comments.author™" : "John"}, 
.. {"$set" : {"comments.$.author™" : "Jim"}}) 


定位 符 只 更 新 第 一 个 匹配 的 元 系 。 所 以 ， 如 有 果 John 发 表 了 多 条 评论 ， 那 
么 他 的 名 字 只 在 第 一 条 评论 中 改变 。 


8. 修改 天 速度 


有 的 修改 器 运行 比较 快 。$inc 能 就 地 修改 ， 因 为 不 需要 改变 文档 的 大 

小 ， 只 需要 将 ” 键 的 值 修改 一 下 (对 文档 大 小 的 改变 非常 小 ) ， 所 以 非 
常 快 。 而 数组 修改 器 可 能 会 改变 文档 的 大 小 ， 束 会 慢 一 些 〈"$set" 能 在 
文档 大 小 不 发 生变 化 时 立即 修改 它 ， 否 则 性 能 也 会 有 所 下 降 ) 。 

将 文档 插入 到 MongoDB 中 时 ， 依 次 插入 的 文档 在 磁盘 上 的 位 置 是 相 邻 

的 。 因 此 ， 如 宁 一 个 文档 变 大 了 ， 原 先 的 位 置 就 放 不 下 这 个 文档 了 ， 这 
个 文档 束 会 被 移 动 到 集合 中 的 男 一 个 位 置 。 


可 以 在 实际 操作 中 看 到 这 种 变化 。 创 建 一 个 包含 几 个 文档 的 集合 ， 对 某 











个 位 于 中 间 的 文档 进行 修改 ， 使 其 尺寸 变 大 。 然 后 会 发现 这 个 文档 被 移 
动 到 了 集合 的 尾部 : 


> db.coll.insert({"x" :"a"}) 
> db.coll.insert({"x" :"b"}) 
> db.coll.insert({"x" :"c"}) 
> db.coll.find() 


{ "_id" : ObjectId("507c3581d87d6a342e1c81d3"), "x" : "a" } 

{ "_id" : ObjectId("507c3583d87d6a342e1c81d4"), "x" : "b" } 

{ "id" : ObjectId("507c3585d87d6a342e1ic81d5"), "x" : "c" } 

> db.coll.update({"x" : "b"}, {$set: {"x" : "bbb"}}) 

> db.coll.find() 

{ "id" : ObjectId("507c3581d87d6a342e1c81d3"), "x" : "a" } 

{ "_id" : ObjectId("507c3585d87d6a342e1ic81d5"), "x" : "c" } 

{ "_id" : ObjectId("507c3583d87d6a342e1c81d4"), "x" : "bbb" } 


MongoDB 不 得 不 移动 一 个 文档 时 ， 它 会 修改 集合 的 填充 因子 (padding 
factor) 。 填 充 因 子 是 MongoDB 为 每 个 新 文档 预 留 的 增长 空间 。 可 以 运 
行 db .coll.stats() 查 看 填充 因子 。 执 行 上 面 的 更 新 之 

前 ，"paddingFactor" 字 上 段 的 值 是 1: 根据 实际 的 文档 大 小 ， 为 每 个 新 文 
档 分 配 精 确 的 空间 ， 不 预 留 任何 增长 空间 ， 如 图 3-1 所 示 。 让 其 中 一 个 
文档 增 大 之 后 ， 再 次 运行 这 个 命令 〈 如 图 3-2 所 示 ) ， 会 发 现 填充 因子 





增加 到 了 1.5: 为 每 个 新 文档 预 留 其 一 半 大 小 的 空间 作为 增长 空间 ， 如 

图 3-2 所 示 。 如 果 随 后 的 更 新 导致 了 更 多 次 的 文档 移动 ， 填 充 因 于 会 持 

续 变 大 《虽然 不 会 像 第 一 次 移动 时 的 变化 那么 大 ) 。 如 果 不 再 有 文档 移 
动 ， 填 充 因子 的 值 会 缓慢 降低 ， 如 图 3-3 所 示 。 


er ev ee 


图 3-1 最 初 ， 文 档 之 间 没 有 多 余 的 空间 


图 3-2 如果 一 个 文档 因为 体积 变 大 而 不 得 不 进行 移动 ， 它 原先 占用 的 




















空间 就 采 置 了 ， 而 且 填 充 因 子 会 增加 


Ee” Fra Ee Ee 





图 3-3 之 后 插入 的 新 文档 都 会 拥有 填充 因子 指定 大 小 的 增长 空间 。 如 
果 在 之 后 的 插入 中 不 再 发 生 文档 移动 ， 填 充 因 子 会 逐渐 变 小 


移动 文档 是 非常 慢 的 。MongoDB 必 须 将 文档 原先 所 占 的 空间 释放 掉 ， 
然后 将 文档 写 入 另 一 片 空间 。 因 此 ， 应 该 尽量 让 填充 因子 的 值 接 近 1。 
及 定 填充 因子 的 值 〈 除 非 是 要 对 集合 进行 压缩 ， 参 见 18.4 

， 但 是 可 以 设计 一 种 不 依赖 于 文档 、 可 以 任意 增长 的 模式 。 第 8 章 
和 证 介 绍 模式 设计 的 相关 内 容 。 


下 面 用 一 个 简单 的 程序 来 展示 原 地 更 新 和 文档 移动 的 速度 差别 。 下 面 的 
程序 插入 了 一 个 只 包含 一 个 键 的 文档 ， 并 且 对 这 个 键 的 值 进行 了 100 
000 次 增加 : 














> db.tester.insert({"x" : 1}) 
> Var timeInc = function() { 
.. Var start = (new Date()).getTime(); 


.. for (var i=0; i<100000; i++) { 


db.tester.update({}, {"$inc™” : {"x" : 1}}); 
db.getLastError(); 
.3} 


.. Var timeDiff = (new Date()).getTime() - start; 
.. print("Updates took: "+timeDiff+"ms"); 


> timeInc() 


在 MacBook Air 上 ， 总 共 花 费 了 7.33 秒 。 也 就 是 每 秒 超过 13 000 次 更 新 。 
现在 ， 使 用 "$push" 回 一 个 只 有 一 个 键 的 数组 中 插入 新 数据 ， 重 复 100 
000 次 。 将 上 面 例子 中 用 于 更 新 文档 的 代码 修改 为 : 


db.tester.update({}, {"$push™ : {"x" : 1}}) 





这 个 程序 运行 时 间 为 67.58 秒 ， 每 秒 少 于 1500 次 更 新 。 


使 用 "$push" 以 及 其 他 一 些 数组 修改 器 是 非常 好 的 ， 而 且 通 名 是 必要 
的 ， 但 是 ， 在 进行 类 似 的 更 新 时 ， 需 要 好 好 权衡 一 下 。 如 果 "$push" 成 
为 了 瓶颈 ， 那 么 将 一 个 内 暴 文 档 取出 放 入 一 个 单独 的 集合 中 ， 手 动 填 
充 ， 或 者 使 用 第 8 章 将 要 介绍 的 其 他 某 项 技术 ， 都 很 值得 。 


写作 本 书 时 ，MongoDB 仍 然 不 能 很 好 地 重用 空白 空间 ， 因 此 频繁 移动 
文档 会 产生 大 量 空 的 数据 文件 。 如 果 有 太 多 不 能 重用 的 空白 空间 ， 你 会 
经 常 在 日 志 中 看 到 如 下 信息 : 


Thu Apr 5 01:12:28 [conn124727] info DFM: :findAll(): extent a:7f1i8dc00 was empty, 








这 了 驶 是 说 ， 执 行 查 询 时 ，MongoDB 会 在 整个 范围 (entire ”extent， 可 以 
在 附录 B 中 但 看 相关 定义 。 简 单 来 襄 ， 它 就 是 集合 的 一 个 子 集 〉 内 进行 
查找 ， 却 找 不 到 任何 文档 : 这 只 是 个 空白 空间 。 这 个 消 恩 提示 本 号 没 什 
么 影响 ， 但 是 它 指出 你 当前 拥有 太 多 的 碎片 ， 可 能 需要 进行 压缩 。 


如 果 你 的 模式 在 进行 插入 和 删除 时 会 进行 大 量 的 移动 或 者 是 经 常 打 乱 数 
据 ， 可 以 使 用 usePowerof2sizes 选 项 以 提高 磁盘 复 用 率 。 可 以 通过 
collMod 命 令 来 设 定 这 个 选项 : 

















> db.runCommand({"collMod" : collectionName, "usePowerOf2Sizes" : true}) 





这 个 集合 之 后 进行 的 所 有 空间 分 配 ， 得 到 的 块 大 小 部 是 2 的 曙 。 由 于 这 
个 选项 会 导致 初始 空间 分 配 不 再 那么 局 效 ， 所 以 应 该 只 在 需要 经 常 打 乱 
数据 的 集合 上 使 用 。 在 一 个 只 进行 插入 或 者 原 地 更 新 的 集合 上 使 用 这 个 
选项 ， 会 叶 臻 写 入 速度 变 慢 。 


如 果 在 这 个 命令 中 指定 "usePowerof2Sizes" 选 项 的 值 为 false， 就 会 关闭 
这 种 特殊 分 配 机 制 。 这 个 选项 只 会 影响 之 后 新 分 配 的 记录 ， 因 此 ， 在 已 
0 
影响。 





3.3.3 upsert 


upsert 是 一 种 特殊 的 更 新 。 要 是 没有 找到 符合 更 新 条 件 的 文档 ， 就 会 以 
这 个 条 件 和 更 新 文档 为 基础 创建 一 个 新 的 文档 。 如 果 找 到 了 [匹配 的 文 
档 ， 则 正常 更 新 。upsert 非 常 方便 ， 不 必 预 置 集合 ， 同 一 套 代码 既 可 以 
用 于 创建 文档 又 可 以 用 于 更 新 文档 。 

我 们 回 过 头 看 看 那个 记录 网 站 页 面 访问 次 数 的 例子 。 要 是 没有 upsert， 
了 驶 得 试 着 查询 URL， 没 有 找到 就 得 新 建 一 个 文档 ， 找 到 的 话 就 增加 访问 
次 数 。 要 是 把 这 个 写成 JavaScript 程 序 ， 会 是 下 面 这 样 的 : 


// 检查 这 个 页 面 是 否 有 一 个 文档 
blog = db.analytics.findone({url : "/blog"}) 





























// 如 果 有 ， 就 将 视图 数 加 /并 保存 

if (blog) { 
blog.pageviewst++; 
db.analytics.save(blog); 


























} 

// 否则 为 这 个 页 面 创建 一 个 新 文档 

else { 
db.analytics.save({url : "/blog", pageviews : 1}) 

} 





这 束 是 说 如 果 有 人 访问 页 面 ， 我 们 得 先 对 数据 库 进行 查询 ， 然 后 选择 更 
新 或 者 插入 。 要 是 多 个 进程 同时 运行 这 段 代 码 ， 还 会 过 到 同时 对 给 定 

URL 插 入 多 个 文档 这 样 的 竞 态 条 件 。 

要 是 使 用 upsert， 既 可 以 避免 竞 态 问 题 ， 又 可 以 缩减 代码 量 (update 的 
第 3 个 参数 表示 这 是 个 upsert) : 


db.analytics.update({"url" : "/blog"}, {"$inc" : {"pageviews" : 1}}, true) 





这 行 代码 和 之 前 的 代码 作用 完全 一 样 ， 但 它 更 高 效 ， 并 且 是 原子 性 的 ! 
创建 新 文档 会 将 条 件 文档 作为 基础 ， 然 后 对 它 应 用 修改 器 文档 。 


例如 ， 要 是 执行 一 个 匹配 键 并 增加 对 应 键 值 的 upsert 操 作 ， 会 在 匹配 的 
文档 上 进行 增加 : 
> db.users.update({"rep" : 25}, {"$inc" : {"rep" : 3}}, true) 


> db.users.findone() 


{ 
"_id" :; ObjectId("4b3295f26cc613d5ee93018f")， 
"rep" : 28 

} 


upsert 创 建 一 个 "rep" 值 为 25 的 文档 ， 随 后 将 这 个 值 加 3， 最 后 得 
到 "rep" 为 28 的 文档 。 要 是 不 指定 upsert 选 项 ，{"rep":25} 不 会 匹配 任何 
文档 ， 也 就 不 会 对 集合 进行 任何 更 新 。 


要 是 再 次 运行 这 个 upsert (条 件 为 {"rep":25}) ， 还 会 创建 一 个 新 文 
档 。 这 是 因为 没有 文档 满足 匹配 条 件 〈( 唯 一 一 个 文档 的 "rep" 值 是 
28) 。 


有 时 ， 需 要 在 创建 文档 的 同时 创建 字段 并 为 它 赋 值 ， 但 是 在 之 后 的 所 有 
更 新 操作 中 ， 这 个 字段 的 值 都 不 再 改变 。 这 束 是 "$setonInsert" 的 作 
用 。"$setonInsert" 只 会 在 文档 插入 时 设置 字段 的 值 。 因 此 ， 实 际 使 用 
中 可 以 这 么 做 : 

> db.users.update({}, {"$setOonInsert" : {"createdAt" : new Date()}}, true) 


> db.users.findone() 


{ 








"_id" : ObjectId("512b8aefae74c67969e404ca")，, 
"createdAt" : ISODate("2013-02-25T16:01:50.7422Z") 
} 


如 果 再 次 运行 这 个 更 新 ， 会 匹配 到 这 个 已 存在 的 文档 ， 所 以 不 会 再 插入 
文档 ， 因 此 "createdAt" 字 上 段 的 值 也 不 会 改变 : 


> db.users.update({}, {"$setOonInsert" : f{"createdAt" : new Date()}}, true) 
> db.users.findone() 
{ 
"_id" : ObjectId("512b8aefae74c67969e404ca")，, 
"createdAt" : ISODate("2013-02-25T16:01:50.7422Z") 
} 





注意 ， 通 和 不 需要 保留 "createdAt" 这 样 的 字段 ， 因 为 objectIds 里 包含 
了 一 个 用 于 标明 文档 创建 时 间 的 时 间 戳 。 但 是 ， 在 预 置 或 者 初始 化 计数 
器 时 ， 或 者 是 对 于 不 使 用 objectIds 的 集合 来 说 ，"$setonInsert" 是 非常 
有 用 的 。 


save shell 帮 助 程序 


save 是 一 个 shell 函 数 ， 如 果 文 档 不 存在 ， 它 会 自动 创建 文档 ， 如 果 文 档 
存在 ， 它 就 更 新 这 个 文档 。 它 只 有 一 个 参数 : 文档 。 要 是 这 个 文档 含 
有 "id" 键 ，save 会 调用 upsert。 人 否则 ， 会 调用 insert。 如 果 在 Shell 中 使 
用 这 个 函数 ， 就 可 以 非常 方便 地 对 文档 进行 快速 修改 。 

> var x = db.foo.findone() 


42 
> db.foo.save(x) 











要 是 不 用 save 的 话 ， 最 后 一 行 代 码 看 起 来 就 会 比较 繁琐 了 ， 比 如 
db.foo.up date({"_id" : x._id}, xXx)。 


3.3.4 更 新 多 个 文档 
默认 情况 下 ， 更 新 只 能 对 符合 匹配 条 件 的 第 一 个 文档 执行 操作 。 要 是 有 


多 个 文档 符合 条 件 ， 只 有 第 一 个 文档 会 被 更 新 ， 其 他 文档 不 会 发 生变 
化 。 要 更 新 所 有 匹配 的 文档 ， 可 以 将 update 的 第 4 个 参数 设置 为 true。 
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"update 的 行为 以 后 可 能 会 发 生变 化 (服务 器 可 能 默认 会 
更 新 所 有 匹配 的 文档 ， 只 有 第 4 个 参数 为 false 才 会 只 更 新 一 个 ) ， 
所 以 建议 每 次 都 显 式 表明 要 不 要 做 多 文档 更 新 。 

这 样 不 但 更 明确 地 指定 了 update 的 行为 ， 而 且 可 以 在 默认 行为 发 生 
变化 时 正常 运行 。 


多 文档 更 新 对 模式 迁移 非常 有 用 ， 还 可 以 在 对 特定 用 户 发 布 新 功能 时 使 
用 。 例 如 ， 要 送 给 在 个 指定 日 期 过 生日 的 所 有 用 户 一 份 礼物 ， 就 可 以 使 
用 多 文档 更 新 ， 将 "gift" 增 加 到 他 们 的 账号 : 








> db.users.update({"birthday" : "10/13/1978"}, 
.. {"$set™" : {"gift" : "Happy Birthday!"}}, false, true) 





这 样 束 给 生日 为 1978 年 10 月 13 日 的 所 有 用 户 文档 添加 了 "gift" 键 。 


想 要 知道 多 文档 更 新 到 底 更 新 了 多 少 文档 ， 可 以 运行 get LastError 命 令 
(可 以 理解 为 “返回 最 后 一 次 操作 的 相关 信息 ”) 。 键 "n" 的 值 就 是 被 更 
新 文档 的 数量 。 
> db.count.update({x : 1}, {$inc : {x : 1}}, false, true) 
> db.runCommand( {getLastError : 1}) 





{ 
"err"” :; null, 
"updatedExisting" : true, 
"nu 5， 
"ok" : true 

} 


这 里 "n" 为 5， 说 明 有 5 个 文档 被 更 新 了 。 "updatedExisting" 为 true， 说 
明 是 对 已 有 的 文档 进行 更 新 。 


3.3.5 返回 被 更 新 的 文档 

调用 get LastError 仅 能 获得 关于 更 新 的 有 限 信息 ， 并 不 能 返回 被 更 新 的 
文档 。 可 以 通过 findAndModify 命 令 得 到 被 更 新 的 文档 。 这 对 于 操作 队 
列 以 及 执行 其 他 需要 进行 原子 性 取 值 和 赋值 的 操作 来 说 ， 十 分 方便 。 


假设 我 们 有 一 个 集合 ， 其 中 包含 以 一 定 顺 序 运行 的 进程 。 其 中 每 个 进程 
都 用 如 下 形式 的 文档 表示 : 








{ 
"_id" : ObjectId(), 
"status" : state, 
"priority" : N 

} 


"status" 是 一 个 字符 串 ， 它 的 值 可 以 是 "READY"、"RUNNING" 或 "DONE"。 


需要 找到 状态 为 "READY" 具 有 最 高 优先 级 的 任务 ， 运 行 相应 的 进程 函 
数 ， 然 后 将 其 状态 更 新 为 "DO0NE"。 也 可 能 需要 查询 已 经 就 绪 的 进程 ， 按 
照 优先 级 排序 ， 然 后 将 优先 级 最 高 的 进程 的 状态 更 新 为 "RUNNING"。 完 
成 了 以 后 ， 就 把 状态 改 为 "DoNE"。 束 像 下 面 这 样 : 











var cursor = db.processes.find({"status" : "READY"}); 


ps = cursor.sort({"priority" : -1}).1limit(1).next(); 
db.processes.update({"_id" : ps. id}, {"$set" : {"status" :; "RUNNING"}}); 
do_something(ps); 

db.processes.update({"_id" : ps._ id}, {"$set" : {"status" :; "DONE"}}); 





这 个 算法 不 是 很 好 ， 可 能 会 导致 竞 态 条 件 。 假 设 有 两 个 线程 正在 运行 。 
A 线 程 读 取 了 文档 ， B 线 程 在 A 将 文档 状态 改 为 "RUNNING" 之 前 也 读 取 
同一 个 文档 ， 这 样 两 个 线程 会 运行 相同 的 处 理 过 程 。 虽 然 可 以 在 更 新 碍 
询 中 进行 状态 检查 来 避免 这 一 问题 ， 但 是 十 分 复杂 





var cursor = db.processes.find({"status" : "READY"}); 
cursor ,Sort({ 人 "priority"”: -1}).l1imit(1); 
while ((ps = cursor.next()) != nul1L) { 
ps.update({"_id" : ps._id, "status" : "READY"}, 
{"$set" : {"status™" : "RUNNING"}}); 


var lastop = db.runCommand({getlasterror : 1}); 

if (lastop.n == 1) { 
do_something(ps); 
db.processes.update({"_id" : ps._id}, {"$set" :; {"status" : "DONE"}}) 
break; 


} 
cursor = db.processes.find({"status" : "READY"}); 
cursor.sort({"priority™” : -1}).1imit(1); 

} 


这 样 也 有 问题 。 因 为 有 先 有 后 ， 很 可 能 一 个 线程 处 理 了 所 有 任务 ， 而 为 
外 一 个 就 傻 傻 地 不 在 那里 。A 线 程 可 能 会 一 直 占 用 着 进程 ，B 线 程 试 着 抢 
占 失败 后 ， 就 让 A 线 程 自己 处 理 所 有 任务 了 。 


过 到 类 似 这 样 的 情况 时 ，findAndModify 就 可 大 显 号 手 
了 。findAndModify 能 够 在 一 个 操作 中 返回 匹配 结果 并 且 进 行 更 新 。 在 
本 例 中 ， 处 理 过 程 如 下 所 示 : 





> ps = db. Funcommand Ct PandAanoMoonT ye : "processes", 
， "query" : {"status" : "READY"}, 
iow SOFt™®: {rpriority" : -1}, 
... "Update" : {"$set" : {"status" : "RUNNING"}}) 
{ 
"rok" 1 
"value" 


"_id" : ObjectId("4b3e7a18005cab32be6291f7"), 
"priority" : 1, 
"status" : "READY" 


注意 ， 返 回 文档 中 的 状态 仍然 为 "READY"， 因 为 findAndModify 返 回 的 是 
修改 之 前 的 文档 。 要 是 再 在 集合 上 进行 一 次 查询 ， 会 发 现 这 个 文档 
的 "status" 已 经 更 新 成 了 "RUNNING": 


> db.processes.findone({"_id" : ps.value. id}) 
"_id" : ObjectId("4b3e7a18005cab32be6291f7" )， 


"priority" : 1, 
"status"” : "RUNNING" 


这 样 的话 ， 程 序 就 变 成 了 下 面 这 样 : 


ps = db.runCommand({"findAndModify" : "processes", 

"query" : {"status" : "READY"}, 

"sort™" : {"priority" : -1}, 

"update" : {"$set™" : {"status" : "RUNNING"}}}).value 
do_something(ps) 
db.process.update({"_id" : ps. id}, {"$set" : {"status" :; "DONE"}}) 


findAndModify 可 以 使 用 "update" 键 也 可 以 使 用 "remove" 键 。"remove" 键 
表示 将 匹配 的 文档 从 集合 里 面 删 除 。 例 如 ， 现 在 不 用 更 新 状态 了 ， 而 是 
直接 删 控 ， 就 可 以 像 下 面 这 样 : 


ps = db.runCommand({"findAndModify" : "processes", 
"query" : {"status" : "READY"}, 
"sort™" : {"priority" : -1}, 
"remove" : true}).value 

do_something(ps) 


findAndModify 命 令 有 很 多 可 以 使 用 的 字段 。 


。 findAndModify 
字符 串 ， 集 合 名 。 
。 query 
查询 文档 ， 用 于 检索 文档 的 条 件 。 


® sort 


排序 结果 的 条 件 。 


e update 


修改 器 文档 ， 用 于 对 匹配 的 文档 进行 更 新 update 和 remove 必 须 指 
Ns 


e remove 
布尔 类 型 ， 表 示 是 否 删除 文档 (remove 和 update 必 须 指 定 一 个 ) 。 
e new 


布尔 类 型 ， 表 示 返 回 更 新 前 的 文档 还 是 更 新 后 的 文档 。 默 认 是 更 新 
前 的 文档 。 


e fields 
文档 中 需要 返回 的 字段 (可 选 )。 
e upsert 
布尔 类 型 ， 值 为 true 时 表示 这 是 一 个 upsert。 默 认为 false。 
"update" 和 "remove" 必 须 有 一 个 ， 也 只 能 有 一 个 。 要 是 没有 匹配 的 文 
档 ， 这 个 命令 会 返回 一 个 错误 。 
3.4 写 入 安全 机 制 


写 入 安全 (Write Concern) 是 一 种 客户 端 设置 ， 用 于 控制 写 入 的 安全 级 
别 。 默 认 情 况 下 ， 揪 入 、 删 除 和 更 新 都 会 一 直 等 待 数据 库 啊 应 〈 写 入 是 
否 成 功 ) ， 然 后 才 会 继续 执行 。 通 常 ， 遇 到 错误 时 ， 客 户 端 会 抛 出 一 个 
异常 (有些 语 言 中 可 能 不 叫 “ 异 常 "?， 不 过 实质 上 都 是 类 似 的 东西 )。 


有 一 些 选 项 可 以 用 于 精确 控制 需要 应 用 程序 等 竺 的 内 容 。 两 种 最 基本 的 
写 入 安全 机 制 是 应 答 式 写 入 (acknowledged wirte) 和 非 应 答 式 写 入 
Cunacknowledged write) 。 应 答 式 写 入 是 默认 的 方式 : 数据 库 会 给 出 啊 
应 ， 告 诉 你 写 入 操作 是 否 成 功 执行 。 非 应 答 式 写 入 不 返回 任何 啊 应 ， 所 
以 无 法 知道 写 入 是 否 成 功 。 








通常 来 说 ， 应 用 程序 应 该 使 用 应 答 式 写 入 。 但 是 ， 对 于 一 些 不 是 特别 重 
要 的 数据 (比如 日 志 或 者 是 批量 加 载 数 据 ， ， 你 可 能 不 愿意 为 了 目 己 不 
De 




















尽管 非 应 答 式 写 入 不 返回 数据 库 错 误 ， 但 是 这 不 代表 应 用 程序 不 需要 做 
错误 检查 。 如 果 答 试 同 已 经 关闭 的 套 接 字 〈socket) 执行 号 入 ， 或 者 与 
入 套 接 字 时 发 生 了 错误 ， 孝 会 引起 异常 。 


使 用 非 应答 式 写 入 时 ， 一 种 经 常 被 忽视 的 错误 是 插入 无 效 数 据 。 比 如 ， 
如 果 试 图 插入 两 个 具有 相同 "_id" 字 段 的 文档 ，shell 就 会 扫 出 异常 : 
> db.foo.insert({"_id" : 1}) 


> db.foo.insert({"_id" :; 1}) 
E11000 duplicate key error index: test.foo.$ id_ dup key: { : 1.0 } 








如 琳 第 二 次 插入 时 使 用 的 是 非 应 答 式 写 入 ， 那 么 第 二 次 插入 就 不 会 抛 出 
异常 。 键 重复 异常 是 一 种 非常 常见 的 错误 ， 还 有 其 他 很 多 类 似 的 错误 ， 
比如 无 效 的 修改 硕 或 者 是 磁盘 空间 不 足 等 。 


shell 与 客户 端 程 序 对 非 应 答 式 写 入 的 实际 文 持 并 不 一 样 : shell 在 执行 非 
应 答 式 写 入 后 ， 会 检查 最 后 一 个 操作 是 否 成 功 ， 然 后 才 会 回 用 户 输 出 所 
示人 信息。 因此 ， 如 果 在 集合 上 执行 了 一 系列 无 效 操作 ， 最 后 义 执行 了 一 
个 有 效 操作 ，shell 并 不 会 提示 有 错误 发 生 。 


> db.foo.insert({"_id" : 1}); db.foo.insert({"_id" : 1}); db.foo.count() 
1 


























可 以 调用 getLastError 手动 强制 在 shell 中 进行 检查 ， 这 一 操作 会 检查 最 
后 一 次 操作 中 的 错误 。 
> db.foo.insert({"_id" : 1}); db.foo,.insert({"_id" : 1}); print( 


... db.getLastError()); db.foo.count() 
E11000 duplicate key error index: test.foo.$ id_ dup key: { : 1.0 } 
1 





编写 需要 在 shell 中 执行 的 脚本 时 ， 这 是 非常 有 用 的 。 
事实 上 ， 还 有 其 他 一 些 写 入 安全 机 制 ， 第 11 章 会 讲述 多 全 服务 器 之 间 的 





&, 2012 年 ， 默 认 的 写 入 安全 机 制 改 变 了 ， 所 以 ， 遗 留 代 码 
的 行为 可 能 会 与 预期 个 “至 在 此 之 前 ， 默 认 的 写 入 是 非 应 和 


幸好 ， 很 容易 得 知 当前 代码 是 在 默认 的 写 入 安全 机 制 发 生变 化 之 前 
写 的 还 是 之 后 写 的 : 默认 的 写 入 机 制 变 为 安全 写 入 之 后 ， 所 有 驱动 
程序 都 开始 使 用 Mongoclient 这 个 类 。 如 果 程 序 使 用 的 连接 对 象 

是 Mongo 或 者 connection 或 者 其 他 内 容 ， 那 么 这 有 段 程序 使 用 的 就 是 旧 
的 、 默 认 不 安全 的 API。 在 默认 写 入 安全 机 制 发 生变 化 之 前 ， 任 何 
语言 都 没有 使 用 Mongoclient 作 为 类 名 ， 所 以 ， 如 果 你 的 代码 使 用 

了 这 个 类 名 ， 说 明 你 的 代码 是 写 入 安全 的 。 如 果 使 用 的 连接 不 
应 在 必要 时 将 旧 代 码 中 的 非 应 答 式 写 入 改 成 应 答 

二 大 > 








本 章 将 详细 介绍 查询 。 主 要 会 涵盖 以 下 几 个 方面 : 





。 使 用 find 或 者 findone 函 数 和 查询 文档 对 数据 库 执行 宜 询 ; 

。 使 用 $ 条 件 碍 询 实现 范围 得 询 、 数 据 集 包 含 查询 、 不 等 式 碍 询 ， 以 
及 其 他 一 些 查 询 ; 

。 得 询 将 会 返回 一 个 数据 库 游标 ， 游 标 只 会 在 你 需要 时 才 将 需要 的 文 
档 批量 返回 ; 

。 还 有 很 多 针对 游标 执行 的 元 操作 ， 包 括 忽 略 一 定数 量 的 结果 ， 或 者 
限定 返回 结果 的 数量 ， 以 及 对 结果 排序 。 


4.1 find 人 简介 

MongoDB 中 使 用 find 来 进行 查询 。 查 询 就 是 返回 一 个 集合 中 文档 的 子 
集 ， 子 集合 的 范围 从 0 个 文档 到 整个 集合 。find 的 第 一 个 参数 决定 了 要 
返回 哪些 文档 ， 这 个 参数 是 一 个 文档 ， 用 于 指定 查询 条 件 。 


空 的 查询 文档 (例如 {) 会 匹配 集合 的 全 部 内 容 。 要 是 不 指定 查询 文 
档 ， 默 认 就 是 全 。 例 如 : 


> db.c.find() 














将 批量 返回 集合 c 中 的 所 有 文档 。 


开始 向 查询 文档 中 添加 键 / 值 对 时 ， 就 意味 着 限定 了 查询 条 件 。 对 于 绝 

大 多 数 类 型 来 说 ， 这 种 方式 很 简单 明了 。 数 值 匹配 数值 ， 布 尔 类 型 匹配 
布尔 类 型 ， 字 符 串 匹配 字符 串 。 查 询 简 单 的 类 型 ， 只 要 指定 想 要 查找 的 
值 就 好 了 ， 十 分 简单 。 例 如 ， 想 要 查找 "age" 值 为 27 的 所 有 文档 ， 直 接 

将 这 样 的 键 / 值 对 写 进 查 询 文 档 就 好 了 : 


> db.users.find({"age" : 27}) 























要 是 想 匹 配 一 个 字符 串 ， 比 如 值 为 "joe" 的 "username" 键 ， 那 么 直接 将 
键 / 值 对 写 在 查询 文档 中 即 可 : 








> db.users.find({"username" : "joe"}) 


可 以 向 查询 文档 加 入 多 个 键 / 值 对 ， 将 多 个 查询 条 件 组 合 在 一 起 ， 这 样 
的 查询 条 件 会 被 解释 成 “条 件 1LAND 条 件 2AND ... AND 条 件 N”。 例 如 ， 
要 想 查 询 所 有 用 户 名 为 joe 且 年 龄 为 27 岁 的 用 户 ， 可 以 像 下 面 这 样 : 


> db.users.find({"username" : "joe", "age" : 27}) 








4.1.1 指定 需要 返回 的 键 


有 时 并 不 需要 将 文档 中 所 有 键 / 值 对 都 返回 。 遇 到 这 种 情况 ， 可 以 通过 
find (或 者 findone) 的 第 二 个 参数 来 指定 想 要 的 键 。 这 样 做 既 会 节省 
传输 的 数据 量 ， 又 能 节省 客户 端 解码 文档 的 时 间 和 内 存 消耗 。 
例如 ， 如 果 只 对 用 户 集合 的 "username" 和 "email1" 键 感 兴趣 ， 可 以 使 用 如 
下 查询 返回 这 些 键 : 
> db.users.find({}, {"username" : 1, "email" :; 1}) 
"_id" :objectId("4baofogdfd22aa494fd523620" ) ， 
"username" : "joe", 


"email" : "joe@example.com" 


} 
可 以 看 到 ， 默 认 情 况 下 "id" 这 个 键 总 是 被 返回 ， 即 便 是 没有 指定 要 返 
回 这 个 键 。 


也 可 以 用 第 二 个 参数 来 剔除 查询 结果 中 的 某 些 键 / 值 对 。 人 例如， 文档 中 
有 很 多 键 ， 但 是 我 们 不 希望 结果 中 含有 "fatal_weakness" 键 : 


> db.users.find({}, {"fatal weakness" :; 0}) 











使 用 这 种 方式 ， 也 可 以 把 "_ig" 键 掏 除 掉 : 


> db.users.find({}, {"username" :; 1, "_id" : 0}) 


"username" : "joe", 


} 


4.1.2 限制 


查询 的 使 用 上 有 些 限制 。 传 递 给 数据 库 的 得 询 文档 的 值 必须 是 利和 量 。 
《在 你 目 己 的 代码 里 可 以 是 正常 的 变量 。) 也 惑 是 不 能 引用 文档 中 其 他 
键 的 值 。 例 如 ， 权 想 保持 库存 ， 有 "in_stock" 《剩余 库存 ) 

和 "num_sold"〈 已 出 售 ) 两 个 键 ， 想 通过 下 列 碍 询 来 比较 两 者 的 值 是 行 
不 通 的 : 


> db.stock.find({"in_stock"” : "this.num_sold"}) // 这 样 是 行 不 通 的 





























的 确 有 办 法 实现 类 似 的 操作 〈 详 见 4.4 节 ) ， 但 通常 需要 略微 修改 一 下 
文档 结构 ， 就 能 通过 普通 查询 来 完成 这 样 的 操作 了 ， 这 种 方式 性 能 
好 。 在 这 个 例子 中 ， 可 以 在 文档 中 使 用 "initial_stock" (初始 库存 ) 
和 "in_stock" 两 个 键 。 这 样 ， 每 当 有 人 购买 物品 ， 就 将 "in_stock" 减 去 
1。 这 样 ， 只 需要 用 一 个 简单 的 查询 就 能 知道 哪 种 商品 己 脱 销 : 


> db.stock.find({"in_stock" : 0}) 








4.2 查询 条 件 


查询 不 仅 能 像 前 面 说 的 那样 精确 匹配 ， 还 能 匹配 更 加 复杂 的 条 件 ， 比 如 
范围 、OR 子 句 和 取 反 。 


4.2.1 ”查询 条 件 

"$1t"、"$lte"、"$gt" 和 "$gte" 就 是 全 部 的 比较 操作 符 ， 分 别 对 应 <、 
<=、> 和 >=。 可 以 将 其 组 合 起 来 以 便 查 找 一 个 范围 的 值 。 例 如 ， 查 询 
18~30 岁 ( 含 ) 的 用 户 ， 就 可 以 像 下 面 这 样 : 


> db.users.find({"age" : {"$gte" : 18, "$lte" :; 30}}) 





这 样 就 可 以 查找 到 "age" 字 段 大 于 等 于 18、 小 于 等 于 30 的 所 有 文档 。 


这 样 的 范围 得 询 对 日 期 尤为 有 用 。 例 如 ， 要 碍 找 在 2007 年 1 月 1 日 前 注册 
的 人 ， 可 以 像 下 面 这 样 : 


> Start = new Date("01/01/2007") 
> db.users.find({"registered" : {"$1lt" :; start}}) 


可 以 对 日 期 进行 精确 匹配 ， 但 是 用 处 不 大 ， 因 为 文档 中 的 日 期 是 精确 到 
毫秒 的 。 而 我 们 通常 是 想得到 一 天 、 一 周 或 者 是 一 个 月 的 数据 ， 这 样 的 
话 ， 使 用 范围 查询 就 很 有 必要 了 。 

对 于 文档 的 键 值 不 等 于 某 个 特定 值 的 情况 ， 就 要 使 用 另外 一 种 条 件 操作 
符 "sne" 了 ， 它 表示 *“ 不 相等 "。 若 是 想 要 查询 所 有 名 字 不 为 joe 的 用 户 ， 
可 以 像 下 面 这 样 查询 ; 


> db.users.find({"username" : {"$ne" : "joe"}}) 








"$ne" 能 用 于 所 有 类 型 的 数据 。 
4.2.2 ”OR 查询 


MongoDB 中 有 两 种 方式 进行 OR 人 查询: "$in" 可 以 用 来 查询 一 个 键 的 多 个 
值 ; "$or" 更 通用 一 些 ， 可 以 在 多 个 键 中 碍 询 任 意 的 给 定 值 。 


如 果 一 个 键 需要 与 多 个 值 进 行 匹 配 的 话 ， 就 要 用 "$in" 操 作 符 ， 再 加 一 
个 条 件数 组 。 例 如 ， 抽 奖 活动 的 中 奖 号 码 是 725、542 和 390。 要 找 出 全 
部 的 中 奖 文档 的 话 ， 可 以 构建 如 下 查询 : 


> db.raffle.find({"ticket_no" : {"$in" : [725, 542, 390]}}) 


"$in" 非 常 灵 活 ， 可 以 指定 不 同类 型 的 条 件 和 值 。 例 如 ， 在 逐步 将 用 户 
的 ID 号 迁移 成 用 户 名 的 过 程 中 ， 碍 询 时 需要 同时 匹配 ID 和 用 户 名 : 


> db.users.find({"user_id" : {"$in" : [12345, "joe"]}) 


这 会 匹配 "user_id" 等 于 12345 的 文档 ， 也 会 匹配 "user_id" 等 于 "joe" 的 
文档 。 

要 是 "$in" 对 应 的 数组 只 有 一 个 值 ， 那 么 和 直接 匹配 这 个 值 效果 一 样 。 
例如 ，{ticket_no : {$in:[725]}} 和 {ticket_no : 725} 的 效果 一 样 。 


与 "$in" 相 对 的 是 "$nin"，"$nin" 将 返回 与 数组 中 所 有 条 件 都 不 匹配 的 文 
档 。 要 是 想 返 回 所 有 没有 中 奖 的 人 人， 就 可 以 用 如 下 方法 进行 查询 : 


> db.raffle.find({"ticket no" : {"$nin" : [725, 542, 390]}}) 


该 查询 会 返回 所 有 没有 中 奖 的 人 。 

"$in" 能 对 单个 键 做 OR 查询 ， 但 要 是 想 找 到 "ticket_no" 为 725 或 

者 "winner" 为 true 的 文档 该 怎么 办 呢 ?” 对 于 这 种 情况 ， 应 该 使 

用 "$or"。"s$or" 接 受 一 个 包含 所 有 可 能 条 件 的 数组 作为 参数 。 上 面 中 奖 
的 例子 如 果 用 "$or" 改 写 将 是 下 面 这 个 样子 : 


> db.raffle.find({"$or" : [{"ticket_no" : 725}, {"winner" : true}]}) 








"$or" 可 以 包含 其 他 条 件 。 例 如， 如 果 希 望 匹 配 到 中 奖 的 "ticket_no"， 
或 者 "winner" 键 的 值 为 true 的 文档 ， 就 可 以 这 么 做 : 


> db.raffle.find({"$or" : [{"ticket no" : {"$in" : [725, 542, 390]}}, 
{"winner" : true}]}) 


使 用 普通 的 AND 型 备 询 时 ， 总 是 希望 尽 可 能 用 最 少 的 条 件 来 限定 结果 的 
范围 。OR 型 查询 正 相 反 : 第 一 个 条 件 应 该 尽 可 能 匹配 更 多 的 文档 ， 这 
样 才 是 最 为 高 效 的 。 

"$or" 在 任何 情况 下 都 会 正常 工作 。 如 果 碍 询 优化 器 可 以 更 高 效 地 处 
理 "$in"， 那 就 选择 使 用 它 。 


4.2.3 $not 


"snot" 是 元 条 件 句 ， 即 可 以 用 在 任何 其 他 条 件 之 上 。 就 拿 取 模 运算 
符 "Smod" 来 说 。"Smod" 会 将 查询 的 值 除 以 第 一 个 给 定 值 ， 若 余数 等 于 第 
二 个 给 定 值 则 匹配 成 功 : 


> db.users.find({"id num" : {"$mod" : [5, 1]}}) 








上 面 的 查询 会 返回 "id_num" 值 为 1、6、11、16 等 的 用 户 。 但 要 是 想 返 
回 "id_num" 为 2>、3、4、5、7、8、9、10、12 等 的 用 户 ， 束 要 
用 "$not" 了: 


> db.users.find({"id num" : {"$not™ : {"$mod" : [5, 1]}}}) 


"$not" 与 正则 表达 式 联合 使 用 时 极为 有 用 ， 用 来 得 找 那些 与 特定 模式 不 


匹配 的 文档 《〈4.3.2 节 会 详细 讲述 正则 表达 式 的 使 用 ) 。 
4.2.4 条 件 语 义 


如 果 比 较 一 下 上 一 章 的 更 新 修改 器 和 前 面 的 查询 文档 ， 会 发 现 以 $ 开 头 
的 键 位 于 在 不 同 的 位 置 。 在 查询 中 ，"$lt" 在 内 层 文档 ， 而 更 新 中 
"$inc" 则 是 外 层 文档 的 键 。 基 本 可 以 肯定 : 条 件 语句 是 内 层 文档 的 键 ， 
而 修改 器 则 是 外 层 文档 的 键 。 


可 以 对 一 个 键 应 用 多 个 条 件 。 例 如 ， 要 查找 年 龄 为 20~30 的 所 有 用 户 ， 
可 以 在 "age" 键 上 使 用 "$gt" 和 "$1t": 


> db.users.find({"age" : {"$1lt" : 30, "$gt" :; 20}}) 








一 个 键 可 以 有 任意 多 个 条 件 ， 但 是 一 个 键 不 能 对 应 多 个 更 新 修改 器 。 例 
如 ， 修改 器 文档 不 能 同时 含有 {"$inc" : {"age" : 1}, "$set" :; f{age 
40}}， 因 为 修改 了 "age" 两 次 。 但 是 对 于 碍 询 条 件 句 惑 没 有 这 种 限 








定 。 


有 一 些 “ 元 操作 符 ”(meta-operator) 也 位 于 外 层 文 档 中 ， 比 
如 "$and"、"$or" 和 "$nor"。 它 们 的 使 用 形式 类 似 : 


> db.users.find({"$and™ : [{"x" : {"$1t" : 1}}, {"x" : 4}]}) 





这 个 碍 询 会 匹配 那些 "x" 字 段 的 值 小 于 等 于 1 并 且 等 于 4 的 文档 。 虽 然 这 
两 个 条 件 看 起 来 是 矛盾 的 ， 但 是 这 是 完全 有 可 能 的 ， 比 如 ， 如 果 "x" 字 
段 的 值 是 这 样 一 个 数组 t"x" : [6，4]}， 那 么 这 个 文档 就 与 查询 条 件 相 
匹配 。 注 意 ， 查 询 优化 器 不 会 对 "$and" 进 行 优 化 ， 这 与 其 他 操作 符 不 
同 。 如 果 把 上 面 的 碍 询 改 成 下 面 这 样 ， 效 率 会 更 高 : 


> db.users.find({"x" : {"$1t" : 1, "$in" : [4]}}) 




















4.3 特定 类 型 的 得 询 


如 第 2 章 所 述 ，MongoDB 的 文档 可 以 使 用 多 种 类 型 的 数据 。 其 中 有 一 些 
在 查询 时 会 有 特别 的 表现 。 





4.3.1 null 


nul1 类 型 的 行为 有 点 奇怪 。 它 确实 能 匹配 目 身 ， 所 以 要 是 有 一 个 包含 如 
下 文档 的 集合 : 


> db.c. “find() 


{ 站 : ObjectId("4baofOdfd22aa494fd523621"), "y" : null } 
ht : ObjectId("4baofOdfd22aa494fd523622"), "y" :; 1} 
{ 人 : 0bjectId("4bagf148d22aa494fd523623")，"y" : 2 } 





就 可 以 按照 预期 的 方式 查询 "y" 键 为 nul1 的 文档 : 


> db.c.find({"y" : null}) 
{ "_id" : ObjectId("4baofodfd22aa494fd523621"), "y" : null } 


但 是 ，null 不 仅 会 匹配 某 个 键 的 值 为 nu11 的 文档 ， 而 且 还 会 匹配 不 包含 
这 个 键 的 文档 。 所 以 ， 这 种 匹配 还 会 返回 缺少 这 个 键 的 所 有 文档 : 

> dp. 'C, find({"z" : null}) 

{ "_id" :; ObjectIid("4baofodfd22aa494fd523621"), "y" : null } 


{" i : ObjectId("4baofOdfd22aa494fd523622"), "y" :; 1} 
{ "_id" : ObjectId("4baof148d22aa494fd523623"), "y" : 2} 


如 果 仅 想 匹配 键 值 为 nul1 的 文档 ， 既 要 检查 该 键 的 值 是 否 为 nu11， 还 要 
通过 "sexists" 条 件 判定 键 值 已 存在 ; 


> db.c.find({"z" : {"$in" ; [null], "$exists" : true}}) 





很 遗憾 ， 没 有 "$eq" 操 作 符 ， 所 以 这 条 查询 语句 看 上 去 有 些 令 人 费解 ， 
但 是 使 用 只 有 一 个 元 素 的 "$in" 操 作 符 效果 是 一 样 的 。 


4.3.2 ”正则 表达 式 


正则 表达 式 能 够 灵活 有 效 地 匹配 字符 串 。 例 如 ， 想 要 查找 所 有 名 为 Joe 
或 者 joe 的 用 户 ， 束 可 以 使 用 正则 表达 式 执 行 不 区 分 大 小 写 的 匹配 : 


> db.users.find({"name" : /joe/i}) 




















系统 可 以 接受 正则 表达 式 标志 〈i) ， 但 不 是 一 定 要 有 。 现 在 已 经 匹配 


了 各 种 大 小 写 组 合 形式 的 joe， 如 果 还 希望 四 配 如 "joey" 这 样 的 键 ， 可 以 
略微 修改 一 下 刚刚 的 正则 表达 式 : 


> db.users.find({"name" : /joey?/i}) 








MongoDB 使 用 Perl 兼 容 的 正则 表达 式 (PCRE)〉 库 来 匹配 正则 表达 式 ， 
任何 PCRE 文 持 的 正则 表达 式 语 法 都 能 被 MongoDB 接 受 。 建 议 在 查询 中 
，、 先 在 JavaScript ”shell 中 检查 一 下 语法 ， 确 保 匹 配 与 
设想 的 一 致 。 








,MongoDB 可 以 为 前 缀 型 正则 表达 式 〔 比 如 /Ajoey/) 查 
询 创 建 索引 ， 所 以 这 种 类 型 的 查询 会 非常 高 效 。 


正则 表达 式 也 可 以 匹配 目 身 。 虽 然 几 乎 没有 人 直接 将 正则 表达 陈 插 入 到 
数据 库 中 ， 但 要 是 万 一 你 这 么 做 了 ， 也 可 以 匹配 到 目 身 : 


> db.foo.insert({"bar" : /baz/}) 
> db.foo.find({"bar" : /baz/}) 
{ 








"_id" : 0bjectId("4b23c3ca7525f35f94b60a2d")， 
"bar" : /baz/ 
} 


4.3.3 ”查询 数组 


得 询 数 组 元 素 与 查询 标量 值 是 一 样 的 。 例 如 ， 有 一 个 水 条 列表 ， 如 下 所 
小 : 











> db.food,.insert({"fruit" : ["apple", "banana", "peach"]}) 


下 面 的 查询 : 


> db.food.find({"fruit" : "banana"}) 


会 成 功 匹 配 该 文档 。 这 个 碍 询 好 比 我 们 对 一 个 这 样 的 《不合 法) 文档 进 


行 查询 : {"fruit" : "apple", "fruit” : "banana", "fruit" 
"peach"}。 


1. $all 


如 果 需 要 通过 多 个 元 素来 匹配 数组 ， 就 要 用 "$al1" 了 。 这 样 就 会 匹配 一 
组 元 素 。 例 如 ， 假 设 创 建 了 一 个 包含 3 个 元 素 的 集合 : 


> db.food,insert({t"” id”: 1, "fruit" : ["apple", "banana", "peach"]}) 
> db.food,.insert({"_id"” : 2, "fruit" : ["apple", "kumquat", "orange"]}) 
> db.food,.insert({"_id" : 3, "fruit" : ["cherry", "banana", "apple"]}) 


要 找到 既 有 "apple" 又 有 "banana" 的 文档 ， 可 以 使 用 "$al1" 来 查询 : 


> db.food. FindC{tfruit : {$all : ["apple", "banana"]}}) 
{"_id" : 1, "fruit" : ["apple", "banana", "peach"]} 
{"_id" : 3, "fruit" : ["cherry", "banana", "apple"]} 


这 里 的 顺序 无 天 紧要 。 注 意 ， 第 二 个 结果 中 "banana" 在 "apple" 之 前 。 要 
是 对 只 有 一 个 元 素 的 数组 使 用 "$al1"， 就 和 不 用 "$all" 一 样 了 。 例 
如 ，{fruit : {$all : ['apple']} 和 {fruit : 'apple'} 的 查询 结果 完全 





O 





也 可 以 使 用 整个 数组 进行 精确 匹配 。 但 是 ， 精 确 匹 配对 于 缺少 元 系 或 者 
0 例如 ， 下 面 的 方法 会 匹配 之 前 的 第 一 个 文 


> db.food.find({"fruit" : ["apple", "banana", "peach"]}) 





但 是 下 面 这 个 束 不 会 匹配 : 


> db.food.find({"fruit" : ["apple", "banana"]}) 


这 个 也 不 会 匹配 : 


> db.food.find({"fruit" : ["banana", "apple", "peach"]}) 





要 是 想 得 询 数组 特定 位 置 的 元 素 ， 需 使 用 key.index 语 法 指定 下 标 : 


> db.food.find({"fruit.2" :; "peach"}) 
数组 下 标 都 是 从 0 开始 的 ， 所 以 上 面 的 表达 式 会 用 数组 的 第 3 个 元 素 
和 "peach" 进 行 下 配 。 
2. $size 


"$size" 对 于 查询 数组 来 说 也 是 非 第 有 用 的 ， 顾 名 思 义 ， 可 以 用 它 查 询 
特定 长 度 的 数组 。 例 如 : 


> db.food.find({"fruit" : {"$size" :; 3}}) 








得 到 一 个 长 度 范 围 内 的 文档 是 一 种 常见 的 查询 。"$size" 并 不 能 与 其 他 
查询 条 件 〈 比 如 "sgt") 组 合 使 用 ， 但 是 这 种 查询 可 以 通过 在 文档 中 添 
加 一 个 "size" 键 的 方式 来 实现 。 这 样 每 一 次 同 指定 数组 添加 元 素 时 ， 同 
时 增加 "size" 的 值 。 比 如 ， 原 本 这 样 的 更 新 : 


> db.food.update(criteria, {"$push" :; {"fruit" : "strawberry"}}) 











就 要 变 成 下 面 这 样 : 


> db.food.update(criteria, 
.. {"$push" : {"fruit" : "strawberry"}, "$inc" : {"size" : 1}}) 


目 增 操作 的 速度 非常 快 ， 所 以 对 性 能 的 影响 微乎其微 。 这 样 存储 文档 
后 ， 束 可 以 像 下 面 这 样 碍 询 了 : 


> db.food.find({"size" : {"$gt" : 3}}) 
很 遗憾 ， 这 种 技巧 并 不 能 与 "$addToset" 操 作 符 同 时 使 用 。 
3. $slice 操 作 符 
本 章 前 面 已 经 提 及 ，find 的 第 二 个 参数 是 可 选 的 ， 可 以 指定 需要 返回 的 


人 
于 集 。 


例如 ， 假 设 现在 有 一 个 博客 文章 的 文档 ， 我 们 希望 返回 前 10 条 评论 ， 可 
以 这 样 做 : 


> db.blog.posts.findone(criteria, {"comments" : {"$slice" : 10}}) 


也 可 以 返回 后 10 条 评论 ， 只 要 在 查询 条 件 中 使 用 -10 就 可 以 了 : 


> db.blog.posts.findone(criteria, {"comments" : {"$slice" : -10}}) 





"$slice" 也 引 以 指定 仿 移 但 以 及 希望 返 回 的 元 素数 量 ， 来 返回 元 系 集 合 
中 间 位 置 的 茶 些 结 


> db.blog.posts.findOone(criteria, {"comments" : {"$slice" : [23, 10]}}) 








0 返回 第 24~33 个 元 素 。 如 果 数 组 不 够 33 个 
元 素 ， 则 返回 第 23 个 元 素 后 面 的 所 有 元 素 。 


除非 特别 声明 ， 人 否则 使 用 "$slice" 时 将 返回 文档 中 的 所 有 键 。 别 的 键 说 
明 符 都 是 默认 不 返回 未 提 及 的 键 这 所 与 "$slice" 不 太一 样 。 例 如 ， 有 
如 下 博客 文章 文档 : 








t 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"title" : "A blog post", 
"content™ :; ",...", 
"comments" : [ 
{ 
name" : "joe", 
"email" : "joe@example.com", 
"content" : "nice post." 
外 
{ 
"name" : "bob", 
"email" : "bob@example.com", 
"content" : "good post." 
} 
] 
} 


用 "$slice" 来 获取 最 后 一 条 评论 ， 可 以 这 样 : 
> db.blog.posts.findOone(criteria, {"comments" : {"$slice" : -1}}) 


"_id" : ObjectId("4b2d75476cc613d5ee930164")， 


"title" : "A blog post", 
"content™ :; ",...", 
"comments" : [ 


"name" : "bob", 
"email" : "bob@example.com", 
"content" : "good post." 


} 
] 
} 


"title" 和 "content" 都 返回 了 ， 即 便 是 并 没有 显 式 地 出 现在 键 说 明 符 
中 。 


4. 返回 一 个 匹配 的 数组 元 素 


如 果 知 道 元 素 的 下 标 ， 那 么 "$slice" 非 常 有 用 。 但 有 时 我 们 希望 返回 与 
碍 询 条 件 相 匹配 的 任意 一 个 数组 元 素 。 可 以 使 用 $ 操 作 符 得 到 一 个 匹配 
的 元 素 。 对 于 上 面 的 博客 文章 示例 ， 可 以 用 如 下 的 方式 得 到 Bob 的 评 


论 : 


> db.blog.posts.find({"comments.name™" : "bob"}, {"comments.$" :; 1}) 
{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"comments" : [ 
name" "bob", 
"email" : "bob@example.com", 
"content" : "good post." 


} 
] 
} 


注意 ， 这 样 只 会 返回 第 一 个 匹配 的 文档 。 如 果 Bob 在 这 篇 博客 文章 下 写 
过 多 条 评论 ， 只 有 "comments" 数 组 中 的 第 一 条 评论 会 被 返回 。 


5. 数组 和 范围 查询 的 相互 作用 


文档 中 的 标量 〈 非 数组 元 素 ) 必须 与 查询 条 件 中 的 每 一 条 语句 相 匹 配 。 
例如 ， 如 果 使 用 f"x" : {f"$gt" : 10，"$lt"” :; 20}} 进 行 查询 ， 只 会 匹 
配 "x" 键 的 值 大 于 等 于 10 并 且 小 于 等 于 20 的 文档 。 但 是 ， 假 如 某 个 文档 
的 "x" 字 段 是 一 个 数组 ， 如 果 "x" 键 的 某 一 个 元 素 与 查询 条 件 的 任意 一 条 
语句 相 [ 匹 配 (查询 条 件 中 的 每 条 语句 可 以 匹配 不 同 的 数组 元 素 ) ， 那 
么 这 个 文档 也 会 被 返回 。 








下 面 用 一 个 例子 来 详细 说 明 这 种 情况 。 假 如 有 如 下 所 示 的 文档 : 


5 和 
: 15} 


尖 关 闪闪 


rr 一 一 


: 25} 
: [5, 25]} 


如 果 希 望 找到 "x" 键 的 值 位 于 10 和 20 之 间 的 所 有 文档 ， 直 接 想 到 的 查询 
方式 是 使 用 db .test.find({"x"” : {f"$gt" : 10，"$lt" : 20}})， 希 望 这 
个 查询 的 返回 文档 是 {f"x" : 15}。 但 是 ， 实 际 返 回 了 两 个 文档 : 


> db.test.find({"x" : {"$gt" : 10, "$1t" : 20}}) 
{"x" : 15} 
eX 


5 和 25 都 不 位 于 10 和 20 之 间 ， 但 是 这 个 文档 也 返回 了 ， 因 为 25 与 查询 条 
件 中 的 第 一 个 语句 〈 大 于 10) 相 匹 配 ，5 与 查询 条 件 中 的 第 二 个 语句 
(小 于 20) 相 匹 配 。 


这 使 对 数组 使 用 范围 查询 没有 用 : 范围 会 匹配 任意 多 元 素数 组 。 有 儿 种 
方式 可 以 得 到 预期 的 行为 。 


首先 ， 可 以 使 用 "$elemMatch" 要 求 MongoDB 同 时 使 用 查询 条 件 中 的 两 个 
语句 与 一 个 数组 元 素 进行 比较 。 但 是 ， 这 里 有 一 个 问 
题 ，"$elemMatch" 不 会 匹配 非 数 组 元 素 : 








> db.test.find({"x" : {"$elemMatch" : {"$gt" : 10, "$1lt" : 20}}) 
> // 查 不 到 任何 结果 




















人 : 15} 这 个 文档 与 查询 条 件 不 再 匹配 了 ， 因 为 它 的 "x" 字 段 是 个 数 


a 


如 果 当 前 但 询 的 字段 上 创建 过 索引 (第 5 章 会 讲述 索引 相关 内 容 ) ， 可 
i ) 和 max() 将 查询 条 件 遍 历 的 索引 范围 限制 为 "$gt" 和 "$lt" 的 


> db.test.find({"x" : {$gt"”: 10，"$lt"”: 20}).min({"x" : 10}).max({"x" : 20}) 
{"x" : 15} 





现在 ， 这 个 查询 只 会 过 历 值 位 于 10 和 20 之 间 的 索引 ， 不 再 与 5 和 25 进 行 
比较 。 只 有 当前 碍 询 的 字段 上 建立 过 索引 时 ， 才 可 以 使 用 min() 和 
max()， 而 且 ， 必 须 为 这 个 索引 的 所 有 字段 指定 min() 和 max()。 


在 可 能 包含 数组 的 文档 上 应 用 范围 查询 时 ， 使 用 min() 和 max() 是 非常 好 
的 : 如 果 在 整个 索引 范围 内 对 数组 使 用 "$gt"/"$1t" 查 询 ， 效 率 是 非常 
低 的 。 查 询 条 件 会 与 所 有 值 进行 比较 ， 会 查询 每 一 个 索引 ， 而 不 仅仅 是 
指定 索引 范围 内 的 值 。 
4.3.4 ”查询 内 网 文 档 


有 两 种 方法 可 以 查询 内 骨 文 档 : 查询 整个 文档 ， 或 者 只 针对 其 键 / 值 对 
进行 查询 。 


查询 整个 内 构 文 档 与 普通 查询 完全 相同 。 例 如 ， 有 如 下 文档 : 

















"name™" :; { 
"first" : "Joe", 
"last" : "Schmoe" 
}, 
"age" : 45 


要 查寻 姓名 为 Joe Schmoe 的 人 可 以 这 样 : 


> db.people.find({"name" : {"first" : "Joe", "last" : "Schmoe"}}) 


但 是 ， 如 果 要 查询 一 个 完整 的 子 文档 ， 那 么 子 文档 必须 精确 匹配 。 如 果 
Joe 决 定 添加 一 个 代表 中 间 名 的 键 ， 这 个 查询 就 不 再 可 行 了 ， 因 为 查询 
条 件 不 再 与 整个 内 风 文 档 相 匹配 。 而 且 这 种 查询 还 是 与 顺序 相关 的 ， 
{"last" : "Schmoe", "first"” : "Joe"} 什 么 都 匹配 不 到 。 


如 果 人 允许 的 话 ， 通 第 只 针对 内 骨 文 档 的 特定 键 值 进 行 查询 ， 这 是 比较 好 
的 做 法 。 这 样 ， 即 便 数据 模式 改变 ， 也 不 会 导致 所 有 查询 因为 要 精确 匹 
配 而 一 下 子 都 挂 挥 。 我 们 可 以 使 用 点 表示 法 查询 内 檬 文档 的 键 : 


> db.people.find({"name.first" : "Joe", "name.last" : "Schmoe"}) 

















现在 ， 如 果 Joe 增 加 了 更 多 的 键 ， 这 个 查询 依然 会 匹配 他 的 姓 和 名 。 


这 种 点 表示 法 是 查询 文档 区 别 于 其 他 文档 的 主要 特点 。 碍 询 文档 可 以 包 
含 皮 来 表达 “进入 内 崩 文 档 内 部 ”的 意思 。 点 表示 法 也 是 等 插 入 的 文档 不 
能 包含 “.” 的 原因 。 将 URL 作 为 键 保存 时 经 常会 过 到 此 类 问题 。 一 种 解决 
方法 束 是 在 插入 前 或 者 提取 后 执行 一 个 全 局 蔡 换 ， 将 “.” 答 换 成 一 个 URL 
中 的 非法 字符 。 

当 文 档 结构 变 得 更 加 复杂 以 后 ， 内 髓 文档 的 匹配 需要 些许 技巧 。 例 如 ， 

假设 有 博客 文章 知 干 ， 要 找到 由 Joe 发 表 的 5 分 以 上 的 评论 。 博 客 文章 的 
结构 如 下 例 所 示 : 


> db.blog.find() 
{ 





"content™" :; "..." 
"comments" : [ 
"author" : "joe", 
"score" : 3, 
"comment" : "nice post" 
}, 
{ 
"author™ : "mary", 
"score" : 6, 
"comment" : "terrible post" 
} 
] 
} 
全 S E 
不 能 直接 用 db .blog.find({"comments" : {"author" : "joe", "score" 


: {"$gte" : 5}}3) 来 查寻 。 内 藤 文 档 的 匹配 ， 必 须要 整个 文档 完全 匹 
配 ， 而 这 个 查询 不 会 匹配 "comment" 键 。 使 用 





db.blog.find({"comments.author" l "joe", "comments.score" 。 

{"$gte" : 5}} 也 不 行 ， 因 为 符合 author 条 件 的 评论 和 符合 score 条 件 的 

评论 可 能 不 是 同一 条 评论 。 也 就 是 说 ， 会 返回 刚才 显示 的 那个 文档 。 

人 : "joe" 在 第 一 条 评论 中 匹配 了 ，"score" : 6 在 第 二 条 评论 
匹配 了 。 


要 正确 地 指定 一 组 条 件 ， 而 不 必 指 定 每 个 键 ， 就 需要 使 
用 "$elemMatch"。 这 种 模糊 的 命名 条 件 句 能 用 来 在 查询 条 件 中 部 分 指定 
光 配 数 组 中 的 单个 内 风 文 档 。 所 以 正确 的 写法 应 该 是 下 面 这 样 的 : 


> db.blog.find({"comments" : {"$elemMatch" : {"author" : "joe", 
"score" : {"$gte" :; 5}}}}) 


"$elemMatch" 将 限定 条 件 进 行 分 组 ， 仪 当 需 要 对 一 个 内 骨 文 档 的 多 个 键 
操作 时 才 会 用 到 。 


4.4 $where 人 查询 


键 / 值 对 是 一 种 表达 能 力 非常 好 的 查询 方式 ， 但 是 依然 有 些 需求 它 无 法 
表达 。 其 他 方法 都 败 下 阵 时 ， 就 轮 到 "$where" 子 句 登 场 了 ， 用 它 可 以 在 
查询 中 执行 任意 的 JavaScript。 这 样 就 能 在 查询 中 做 〈 几 乎 ) 任何 事情 。 
为 安全 起 见 ， 应 该 严格 限制 或 者 消除 "$where" 语 句 的 使 用 。 应 该 禁止 终 
端 用 户 使 用 任意 的 "$where" 语 句 。 


"$where" 语 句 最 常见 的 应 用 就 是 比较 文档 中 的 两 个 键 的 值 是 否 相等 。 假 
如 我 们 有 如 下 文档 : 


> db.foo.insert({"apple" : 1, "banana" : 6, "peach" :; 3}) 
> db.foo.insert({"apple" : 8, "spinach" : 4, "watermelon" : 4}) 

















我 们 希望 返回 两 个 键 具 有 相同 值 的 文档 。 第 二 个 文档 
中 ，"spinach" 和 "watermelon" 的 值 相同 ， 所 以 需要 返回 该 文档 。 
MongoDB 似 乎 从 来 没有 提供 过 一 个 $ 条 件 语句 来 做 这 种 查询 ， 所 以 只 能 
用 "$where" 子 句 借 助 JavaScript 来 完成 了 : 

> db.foo.find({"$where" : function () { 


.. for (var current in this) { 
for (var other in this) 





If (current != other && this[current] == this[other]) { 
return true 
} 
} 
... return false,; 
.， }}); 


如 果 函 数 返回 true， 文 档 束 做 为 结果 集 的 一 部 分 返回 ; 如 果 为 false， 
束 不 返回 。 


不 是 非常 必要 时 ， 一 定 要 避免 使 用 "$where" 查 询 ， 因 为 它们 在 速度 上 要 
比 和 常规 查询 慢 很 多 。 每 个 文档 都 要 从 BSON 转 换 成 JavaScript 对 象 ， 然 后 
通过 "$where" 表 达 式 来 运行 。 而 且 "$where" 语 句 不 能 使 用 索引 ， 所 以 只 
在 走投无路 时 才 考 虑 "$where" 这 种 用 法 。 先 使 用 常规 查询 进行 过 小 ， 然 
后 再 使 用 "$where" 语 句 ， 这 样 组 合 使 用 可 以 降低 性 能 损失 。 如 果 可 能 的 








而 ， 使 用 "$where" 语 句 前 应 该 先 使 用 索引 进行 过 小，"$where" 公 用 于 对 
结果 进行 进一步 过 滤 。 


进行 复 淋 查询 的 力 一 种 方法 是 使 用 聚合 工具 ， 第 7 章 会 详细 介绍 
服务 器 端 脚本 


在 服务 器 上 执行 JavaScript 时 必须 注意 安全 性 。 如 果 使 用 不 当 ， 服 务 堪 端 
JavaScript 很 容易 受到 注入 攻击 ， 与 关系 型 数据 库 中 的 注入 攻击 类 似 。 不 
过 ， 只 要 在 接受 输入 时 遵循 一 些 规则 ， 就 可 以 安全 地 使 用 JavaScript。 也 
可 以 在 运行 nongod 时 指定 - -noscripting 选 项 ， 完 全 关闭 JavaScript 的 执 
行 8 


JavaScript 的 安全 问题 都 与 用 户 在 服务 器 上 提供 的 程序 相关 。 如 果 希 望 避 
免 这 些 风 险 ， 那 么 就 要 确保 不 能 直接 将 用 户 输入 的 内 容 传递 给 
mongod。 例 如 ， 假 如 你 希望 打印 一 句 “Hello, name!”， 这 里 的 name 是 由 用 
户 提供 的 。 使 用 如 下 所 示 的 JavaScript 函 数 是 非常 容易 想到 的 : 


> func = "function() { print('Hello, "+name+"!'); }" 








如 果 这 里 的 name 是 一 个 用 户 定 义 的 变量 ， 它 可 能 会 是 
db.dropDatabase();print('" 这 样 一 个 字符 串 ， 因 此 ， 上 条 的 代码 会 被 
转换 成 如 下 代码 : 


> func = "function() { print('Hello, '); db,dropDatabase(); print('!'); }" 


如 果 执 行 这 段 代码 ， 你 的 整个 数据 库 束 会 被 删除 ! 
为 了 避免 这 种 情况 ， 应 该 使 用 作用 域 来 传递 name 的 值 。 以 Python 为 例 : 


func = pymongo.code.Code("function() { print('Hello, '+username+'!'); }", 
{"username": name}) 


现在 ， 数 据 库 会 输出 如 下 的 内 容 ， 不 会 有 任何 风险 : 


Hello, '); db.dropDatabase(); print('! 








由 于 代码 实际 上 可 能 是 字符 串 和 作用 域 的 混合 体 ， 所 以 大 多 数 驱 动 程序 
都 有 一 种 特殊 类 型 ， 用 于 问 数 据 库 传递 代码 。 作 用 域 是 用 于 表示 变量 名 
和 值 的 映射 的 文档 。 对 于 要 被 执行 的 JavaScript 隙 数 来 说 ， 这 个 映射 束 是 
一 个 局 部 作用 域 。 因 此 ， 在 上 面 的 例子 中 ， 函 数 可 以 访问 username 这 个 
变量 ， 这 个 变量 的 值 就 是 用 户 传 进来 的 字符 串 。 














Schell 中 没有 包含 作用 域 的 代码 类 型 ， 所 以 作用 域 只 能 在 
字符 串 或 者 JavaScript 函 数 中 使 用 。 


4.5 游标 


数据 库 使 用 游标 返回 find 的 执行 结果 。 客 户 端 对 游标 的 实现 通常 能 够 对 

最 终结 果 进 行 有 效 的 控制 。 可 以 限制 结果 的 数量 ， 略 过 部 分 结果 ， 根 据 

1 吝 果 进行 各 种 排序 ， 或 者 是 执行 其 他 一 些 强 
梁 


要 外 从 shell 中 创建 一 个 洲 标 ， 首 先 要 对 集合 项 充 一 些 文档 ， 然 后 对 其 执 

并 将 结果 分 配给 一 个 局 部 变量 〈 用 var 声 明 的 变量 就 是 局 部 变 
。 这 里 ， 先 创建 一 个 简单 的 集合 ， 而 后 做 个 查询 ， 并 用 cursor 变 量 
曙 存 结果 


> We 0; i<100; 工 ++ 
Re db. collection。 insert({x : i}); 














> Var cursor = db.collection.find(); 








这 么 做 的 好 处 是 可 以 一 次 查看 一 条 结果 。 如 果 将 结果 放 在 全 局 变量 或 者 
就 没有 放 在 变量 中 ，MongoDB shell 会 目 动 迭 代 ， 自 动 显 示 最 开始 的 耕 
干 文档 。 也 就 是 在 这 之 前 我 们 看 到 的 种 种 例子 ， 一 般 大 家 只 想 通 过 shell 
en 这 样 设计 也 就 很 
已 Jo 


要 友 代 结 末 ， 可 以 使 用 游标 的 next 方 法 。 也 可 以 使 用 hasNext 来 查看 游 
标 中 是 售 还 有 其 他 结果 。 典 型 的 结果 壳 历 如 下 所 示 : 














> while (cursor.hasNext()) { 
obj = cursor.next(); 
// do stuff 
，} 














cursor .hasNext() 检 查 是 否 有 后 续 结 果 存 在 ， 然 后 用 cursor .next() 获 和 


游标 类 还 实现 了 JavaScript 的 从 代 器 接口 ， 所 以 可 以 在 forEach 循 环 中 使 
用 : 





> Var cursor = db.people.find(); 
> cursor.forEach(function(x) { 
A print(x.name); 
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调用 find 时 ，shell 并 不 立即 查询 数据 库 ， 而 是 等 待 真正 开始 要 求 获 得 结 

果 时 才 发 送 查 询 ， 这 样 在 执行 之 前 可 以 给 查询 附加 额外 的 选项 。 几乎 游 
标 对 象 的 每 个 方法 都 返回 游标 本 里， 这 样 就 可 以 按 任意 顺序 组 成 方法 

链 。 例 如 ， 下 面 几 种 表达 是 等 价 的 : 


> Var cursor = db,.foo.find().sort({"x" : 1}).l1imit(1).skip(10); 
> Var cursor = db.foo.find().1imit(1).sort({"x" : 1}).skip(10); 
> Var cursor = db.foo.find().skip(10).1imit(1).sort({"x" : 1}); 














此 时 ， 碍 询 还 没有 真正 执行 ， 所 有 这 些 函 数 都 只 是 构造 查询 。 现 在 ， 假 
设 我 们 执行 如 下 操作 : 


> cursor.hasNext() 


这 时 ， 碍 询 被 发 往 服务 器 。shell 立 刻 获取 前 100 个 结果 或 者 前 4 MB 数据 
(两 者 之 中 较 小 者 ) ， 这 样 下 次 调用 next 或 者 hasNext 时 就 不 必 再 次 连 

接 服务 器 取 结 果 了 。 客 户 端 用 光 了 第 一 组 结果 ，shell 会 再 一 次 联系 数据 
库 ， 使 用 getMore 请 求 提 取 更 多 的 结果 。getMore 请 求 包含 一 个 查询 标识 
符 ， 癌 数据 库 询 问 是 否 还 有 更 多 的 结果 ， 如 果 有 ， 则 返回 下 一 批 结果 。 

这 个 过 程 会 一 直 持 续 到 游标 耗 尽 或 者 结果 全 部 返回 。 








4.5.1 limit、 skip 和 sort 


最 常用 的 碍 询 选 项 就 是 限制 返回 结 末 的 数量 、 忽 略 一 定数 量 的 结果 以 及 
排序 。 所 有 这 些 选 项 一 定 要 在 查询 被 发 送 到 服务 器 之 前 指定 。 


要 限制 结果 数量 ， 可 在 find 后 使 用 1imit 函 数 。 例 如 ， 只 返回 3 个 结果 ， 
可 以 这 样 : 


> db.c.find().1imit(3) 








要 是 匹配 的 结果 不 到 3 个 ， 则 返回 匹配 数量 的 结 末 。1limit 指 定 的 是 上 
限 ， 而 非 下 限 。 


skip 与 1imit 类 似 : 








> db.c.find().skip(3) 


上 面 的 操作 会 略 过 前 三 个 匹配 的 文档 ， 然 后 返回 余下 的 文档 。 如 采集 合 
里 面 能 匹配 的 文档 少 于 3 个 ， 则 不 会 返回 任何 文档 。 


sort 接 受 一 个 对 象 作 为 参数 ， 这 个 对 象 是 一 组 键 / 值 对 ， 键 对 应 文档 的 键 
名 ， 值 代表 排序 的 方向 。 排 序 方向 可 以 是 1〈 升 序 ) 或 者 -1〈 降 序 ) 。 
如 果 指 定 了 多 个 键 ， 则 按照 这 些 键 被 指定 的 顺序 逐个 排序 。 例 如 ， 要 按 
照 "username" 升 序 及 "age" 降 序 排序 ， 可 以 这 样 写 : 


> db.c.find().sort({username : 1, age : -1}) 





这 3 个 方法 可 以 组 合 使 用 。 这 对 于 分 页 非常 有 用 。 例 如 ， 你 有 个 在 线 丙 
店 ， 有 人 想 搜 索 mp3。 寿 是 想 每 页 返回 50 个 结果 ， 而 且 按照 价格 从 高 到 
低 排 序 ， 可 以 这 样 写 : 


> db.stock.find({ "desc"”: "mp3"}).1imit(50).sort({"price" : -1}) 








点 击 “ 下 一 页 ”可 以 看 到 更 多 的 结果 ， 通 过 skip 也 可 以 非常 简单 地 实现 ， 
只 需要 略 过 前 50 个 结果 就 好 了 《已 经 在 第 一 页 显示 了 ) : 


> db.stock.find({"desc™" : "mp3"}).1limit(50).skip(50).sort({"price" : -1}) 


J/ 
AAA 


然而 ， 略 过 过 多 的 结果 会 导致 性 能 问题 ， 下 一 小 节 会 讲述 如 何 避 免 略 过 
大 量 结果 。 


比较 顺序 


MongoDB 处 理 不 同类 型 的 数据 是 有 一 定 顺 序 的 。 有 时 一 个 键 的 值 可 能 
是 多 种 类 型 的 ， 例 如 ， 整 型 和 布尔 型 ， 或 者 字符 串 和 null1。 如 果 对 这 种 
混合 类 型 的 键 排 序 ， 其 排序 顺序 是 预先 定义 好 的 。 优 先 级 从 小 到 大 ， 其 
人 
. 取 人 小 但 ; 


.Null; 
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. 数组 ; 
.二 进 制 数据 ; 
.对 象 ID; 

9. 布尔 型 ; 

10. 日 期 型 ; 

11. 时 间 惟 ; 

12. 正则 表达 式 ; 
13. 最 大 值 。 


4.5.2 ”避免 使 用 skip 略 过 大 量 结果 


用 skip 略 过 少量 的 文档 还 是 不 错 的 。 但 是 要 是 数量 非常 多 的 话 ，skip 就 
会 变 得 很 慢 ， 因 为 要 先 找到 需要 被 略 过 的 数据 ， 然 后 再 抛弃 这 些 数 据 。 
大 多 数 数据 库 都 会 在 索引 中 保存 更 多 的 元 数据 ， 用 于 处 理 skip， 但 是 

MongoDB 目 前 还 不 文 持 ， 所 以 要 尽量 避免 略 过 太 多 的 数据 。 通 党 可 以 
利用 上 次 的 结果 来 计算 下 一 次 查询 条 件 。 


1. 不 用 skip 对 结果 分 页 


最 简单 的 分 页 方法 就 是 用 limit 返 回 结果 的 第 一 页 ， 然 后 将 每 个 后 续 页 
面 作为 相对 于 开始 的 侦 移 量 返 回 。 
> // 不 要 这 么 用 ; 略 过 的 数据 比较 多 时 ， 速 度 会 变 得 很 慢 


> Var page1 = db.foo.find(criteria).1imit(100) 
> Var page2 = db.foo,.find(criteria).skip(100).1imit(100) 


Co 












































> Var page3 = db.foo,.find(criteria).skip(200).1imit(100) 





然而 ， 一 般 来 讲 可 以 找到 一 种 方法 在 不 使 用 skip 的 情况 下 实现 分 页 ， 这 
取决 于 查询 本 身 。 例 如 ， 要 按照 "date" 降 序 显示 文档 列表 。 可 以 用 如 下 
方式 获取 结果 的 第 一 页 : 


> Var pagel1 = db.foo.find().sort({"date" : -1}).1imit(100) 





人 
人 : 


var latest = null,; 

// 显示 第 一 页 

while (page1.hasNext()) { 
Jatest = pagel1.next(); 
display(latest); 

} 


// 获取 下 一 页 
var page2 = db.foo.find({"date" : {"$gt" : latest.date}}); 
page2.sort({"date™" : -1}).1imit(100); 





这 样 查询 中 就 没有 skip 了 。 
2. 随机 选取 文档 


从 集合 里 面 随机 挑选 一 个 文档 算是 个 常见 问题 。 最 笨 的 〈 也 很 慢 的 ) 做 
法 就 是 先 计算 文档 总 数 ， 然 后 选择 一 个 从 0 到 文档 数量 之 间 的 随机 数 ， 
利用 find 做 一 次 查询 ， 略 过 这 个 随机 数 那么 多 的 文档 ， 这 个 随机 数 的 取 
值 范围 为 0 到 集合 中 文档 的 总 数 : 


> // 不 要 这 么 用 
> Var total = db.foo.count() 

> var random = Math ,floor(Math,random( )*total) 
> db.foo.find().skip(random).1imit(1) 























这 种 选取 随机 文档 的 做 法 效率 太 低 : 首先 得 计算 总 数 〈 要 是 有 查询 条 件 
就 会 很 费时 ) ， 然 后 用 skip 略 过 大 量 结果 也 会 非常 耗 时 。 


略微 动 动脑 筋 ， 从 集合 里 面 得 找 一 个 随机 元 素 还 是 有 好 得 多 的 办 法 的 。 














秘诀 阮 是 在 插入 文档 时 给 每 个 文档 都 添加 一 个 额外 的 随机 键 。 例 如 在 
shell 中 ， 可 以 用 Math.random()〈 产 生 一 个 0~1 的 随机 数 ) : 


> db.people.insert({"name" : "joe", "random" : Math.random()}) 
> db.people.insert({"name" : "john", "random" : Math.random()}) 
> db.people.insert({"name" : "jim", "random" : Math.random()}) 


这 样 ， 想 要 从 集合 中 查找 一 个 随机 文档 ， 只 要 计算 一 个 随机 数 并 将 其 作 
为 查询 条 件 就 好 了 ， 完 全 不 用 skip: 


> Var random = Math.random() 
> result = db.foo.findone({"random" : {"$gt" : random}}) 


偶尔 也 会 遇 到 产生 的 随机 数 比 集合 中 所 有 随机 值 都 大 的 情况 ， 这 时 惑 没 
有 结果 返回 了 。 巡 到 这 种 情况 ， 那 融 将 条 件 操 作 符 换 一 个 方 癌 : 


> if (result == null) { 
二 result = db.foo.findone({"random" : {"$1lt" : random}}) 
.3} 


要 是 集合 里 面 本 就 没有 文档 ， 则 会 返回 nul1， 这 说 得 通 。 


这 种 技巧 还 可 以 和 其 他 各 种 复杂 的 查询 一 同 使 用 ， 仅 需要 确保 有 包含 随 
机 键 的 索引 即 可 。 例 如 ， 想 在 加 州 随 机 找 一 个 水 暧 工 ， 可 以 
对 "profession"、"state" 和 "random" 建 并 索引 : 


> db.people.ensureIndex({"profession" : 1, "state" :; 1, "random" :; 1}) 





这 样 就 能 很 快 得 出 一 个 随机 结果 (关于 索引 ， 详 见 第 5 章 〉。 
4.5.3 ”高 级 查询 选项 


有 两 种 类 型 的 查询 : 简单 查询 (plain query) 和 封装 查询 (wrapped 
query) 。 人 简单 查询 束 像 下 面 这 样 : 


> Var cursor = db,.foo.find({"foo" : "bar"}) 





有 一 些 选项 可 以 用 于 对 查询 进行 “封装 ”。 例 如 ， 假 设 我 们 执行 一 个 排 


序 ; 


> Var cursor = db,.foo.find({"foo" : "bar"}).sort({"x" : 1}) 


实际 情况 不 是 将 {"foo"” : "bar"} 作 为 查询 直接 发 送 给 数据 库 ， 而 是 先 将 
查询 封装 在 一 个 更 大 的 文档 中 。shell 会 把 查询 从 {"foo"” : "bar"} 转 换 成 


{"$query™" : {"foo" : "bar"}, "$orderby™”" : {"x" : 1}}。 


绝 大 多 数 驱 动 程序 都 提供 了 辅助 函数 ， 用 于 回 查 询 中 添加 各 种 选项 。 下 
面 列 举 了 其 他 一 些 有 用 的 选项 。 





e $maxscan : integer 
指定 本 次 查询 中 扫描 文档 数量 的 上 限 。 


> db.foo.find(criteria)._addSpecial("$maxscan", 20) 





如 果 不 希 望 查 询 耗 时 太 多 ， 也 不 确定 集合 中 到 底 有 多 少 文档 需要 扫 
描 ， 那 么 可 以 使 用 这 个 选项 。 这 样 束 会 将 查询 结果 限定 为 与 被 扫 摘 
的 集合 部 分 相 匹 配 的 文档 。 这 种 方式 的 一 个 坏处 是 ， 茶 些 你 和 希望 得 
到 的 文档 没有 扫描 到 。 





$min : document 

查询 的 开始 条 件 。 在 这 样 的 查询 中 ， 文 档 必须 与 索引 的 键 完全 区 
配 。 查 询 中 会 强制 使 用 给 定 的 索引 。 

在 内 部 使 用 时 ， 通 常 应 该 使 用 "$gt" 代 替 "$min"。 可 以 使 用 "$min" 强 
制 指定 一 次 索引 扫 摘 的 下 边界 ， 这 在 复杂 玛 询 中 非常 有 用 。 





$max : document 

查询 的 结束 条 件 。 在 这 样 的 查询 中 ， 文 档 必须 与 索引 的 键 完全 苞 
配 。 碍 询 中 会 强制 使 用 给 定 的 索引 。 

在 内 部 使 用 时 ， 通 常 应 该 使 用 "$1g" 而 不 是 "$max"。 可 以 使 
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e $showDiskLoc : true 


在 查询 结果 中 添加 一 个 "$diskLoc" 字 段 ， 用 于 显示 该 条 结果 在 磁盘 


上 的 位 置 。 例 如 : 


> db.foo.find()._addSpecial('$showDiskLoc',true) 
{ "_id" : 0, "$diskLoc" : { "file" : 2, "offset" : 154812592 } } 
{ "_id" : 1, "$diskLoc" : { "file" : 2, "offset" : 154812628 } } 


文件 写 码 显示 了 这 个 文档 所 在 的 文件 。 如 果 这 里 使 用 的 是 test 数 据 
库 ， 那 么 这 个 文档 就 在 test.2 文 件 中 。 第 二 个 字段 显示 的 是 该 文档 在 
文件 中 的 侦 移 量 。 


4.5.4 获取 一 致 结 


数据 处 理 通 种 的 做 法 就 是 先 把 数据 从 MongoDB 中 取出 来 ， 然 后 做 一 些 
变换 ， 最 后 再 存 回去 : 


cursor = db.foo.find(); 











while (cursor.hasNext()) { 
var doc = cursor.next(); 
doc = process(doc); 
db.foo.save(doc); 


} 


结果 比较 少 ， 这 样 是 没 问 题 的 ， 但 是 如 果 结 采集 比较 大 ，MongoDB 可 
能 会 多 次 返回 同一 个 文档 。 为 什么 呢 ? 想象 一 下 文档 完 竟 是 如 何 存 储 的 
吧 。 可 以 将 集合 看 做 一 个 文档 列表 ， 如 图 4-1 所 示 。 雪 人 花 代 表 文 档 ， 因 
为 每 一 个 文档 都 是 美丽 且 唯 一 的 。 








图 4-1 行 查 询 的 集合 


这 样 ， 进 行伍 找 时 ， 从 集合 的 开头 返回 结果 ， 游 标 不 断 疝 右 移动 。 程 序 
获取 前 100 个 文档 并 处 理 。 将 这 些 文档 保存 回 数据 库 时 ， 如 果 文 档 体积 
增加 了 ， 而 预 留 空 间 不 足 ， 如 图 4-2 所 示 ， 这 时 就 需要 对 体积 增 大 后 的 








文档 进行 移动 。 通 常会 将 它们 挪 至 集合 的 末尾 处 《如 图 4-3 所 示 ) 。 








图 4-2 ”体积 变 大 的 文档 ， 可 能 无 法 保存 回 原先 的 位 置 





图 4-3 ”MongoDB 会 为 更 新 后 无 法 放 回 原 位 置 的 文档 重新 分 配 存 储 空 
间 


现在 ， 程 序 继续 获取 大 量 的 文档 ， 如 此 往复 。 当 游标 移动 到 集合 末尾 
因 体 积 太 大 无 法 放 回 原 位 置 而 被 移动 到 集合 末尾 的 文档 ， 
图 4-4 有 不。 





图 4-4 ”游标 可 能 会 返回 那些 由 于 体积 变 大 而 被 移动 到 集合 末尾 的 文档 





应 对 这 个 问题 的 方法 就 是 对 查询 进行 快照 (snapshot) 。 如 果 使 用 了 这 
个 选项 ， 碍 询 承 在 "_id" 索 引 上 通 历 执行 ， 这 样 可 以 保证 每 个 文档 只 被 
返回 一 次 。 例 如 ， 将 db.foo.find() 改 为 : 


> db.foo.find().snapshot() 


快照 会 使 查询 变 慢 ， 所 以 应 该 只 在 必要 时 使 用 快照 。 例 
如 ，mongodump 〈 用 于 备份 ， 第 22 章 会 介绍 ) 默认 在 快照 上 使 用 查询 。 


所 有 返回 单 批 结 果 的 查询 都 被 有 效 地 进行 了 快照 。 当 游标 正在 等 待 获取 
下 一 批 结果 时 ， 如 果 集 合 发 生 了 变化 ， 数 据 才 可 能 出 现 不 一 致 。 


4.5.5 游标 生命 周期 


看 符 洲 标 有 两 种 角度 : 客户 端的 游标 以 及 客户 端 游标 表示 的 数据 库 游 
你 。 前 面 讨论 的 虱 古 客户 疾 的 游标 ， 接 下 来 简要 看 看 服务 器 六 发 生 了 什 
2 


在 服务 嚣 端 ， 游 标 消耗 内 存 和 其 他 资源 。 游 标明 历尽 了 结果 以 后 ， 或 者 
客户 端 发 来 消息 要 求 终止 ， 数 据 库 将 会 释放 这 些 资 源 。 释 放 的 资源 可 以 
馈 数 据 库 力作 他 用 ， 这 是 非常 有 区 的 ， 所 以 要 尽量 保证 尽快 释放 游标 
(在 合理 的 前 提 下 )。 


还 有 一 些 情况 导致 游 标 终 止 〈 随 后 修 清 理 ) 。 首 先 ， 游 标 完成 匹配 结果 
的 兴 代 时 ， 它 会 清除 自 旱 。 男 外 ， 如 果 客 户 端 的 游标 已 经 不 在 作用 域内 
了 ， 观 动 程序 会 癌 服 务 咒 发 送 一 条 特别 的 消 轧 ， 证 其 销 妈 洲 标 。 节 后 ， 
即便 用 户 没 有 运 代 完 所 有 结果 ， 并 且 游 标 也 还 在 作用 域 中 ， 如 宋 一 个 游 
标 在 10 分 钟 内 没有 使 用 的 话 ， 数 据 库 游 标 也 会 自动 销 驱 。 这 样 的 话 ， 如 
果 客 户 端 朋 省 或 者 出 错 ，MongoDB 就 不 需要 维护 这 上 和 干 个 被 打开 却 不 
再 使 用 的 游标 。 


这 种 “超时 销毁 ”的 行为 是 我 们 希望 的 ; 极 少 有 应 用 程序 希望 用 户 花 费 数 
分 钟 坐 在 那里 等 待 结 果 。 然 而 ， 有 时 的 确 希望 游标 持续 的 时 间 长 一 些 。 
在 是 如 此 的 话 ， 多 数 张 动 程序 都 实现 了 一 个 叫 immortal 的 函数 ， 或 者 类 
似 的 机 制 ， 来 告知 数据 库 不 要 让 游标 超时 。 如 果 关 闭 了 游标 的 超时 时 
间 ， 则 一 定 要 和 迭代 完 所 有 结果 ， 或 者 主动 将 其 销毁 ， 以 确保 游标 被 关 
闭 。 否 则 它 会 一 直 在 数据 库 中 消耗 服务 器 资源 。 

















4.6 ”数据 库 命令 


有 一 种 非常 特殊 的 查询 类 型 叫 作 数据 库 命令 (database command) 。 前 
面 已 经 介绍 过 文档 的 创建 、 更 新 、 删 除 以 及 查询 。 这 些 都 是 数据 库 命令 
的 使 用 范畴 ， 包 括 管理 性 的 任务 〈 比 如 关闭 服务 器 和 克隆 数据 库 ) 、 统 
计 集 合 内 的 文档 数量 以 及 执行 聚合 等 。 


本 节 主 要 讲述 数据 库 命令 ， 在 数据 操作 、 管 理 以 及 监控 中 ， 数 据 库 命令 
都 是 非常 有 用 的 。 例 如 ， 删 除 集合 是 使 用 "drop" 数 据 库 命 令 完成 的 : 





> db.runCcommand({"drop" : "test"}); 
{ 
"nIndexesWas" : 
"msg" : "indexes roppes for collection" 
"ns" : "test.test' 
"ok" : true 


也 许 你 对 shell 辅 助 函 数 比 较 熟 悉 ， 这 些 辅助 函数 封装 数据 库 命 令 ， 并 提 
供 更 加 简单 的 接口 : 


> db.test,drop() 


只 使 用 shell 辅 助 函 数 束 可 以 了 ， 但 是 了 解 它们 底层 的 命令 很 有 和 玫 
尤其 是 当 伞 用 旧版 本 的 shell 渤 把 到 新 版 本 的 数据 库 上 时， 这 个 shell 
能 不 文 持 新 版 数据 库 的 一 些 命令 ， 这 时 候 就 不 得 不 直接 使 


en 


在 前 面 的 章节 中 已 经 看 到 过 一 些 命令 了 ， 比 如 ， 第 3 章 使 
用 getLastError 来 查看 更 新 操作 影响 到 的 文档 数量 : 
> db.count.update({x : 1}, {$inc : {x : 1}}, false, true) 


> db.runCommand( {getLastError : 1}) 
{ 





"err™" : null, 
supdatedExisting" : true, 
a : true 
} 
本 市 会 更 深入 地 介绍 数据 库 命 令 ， 一 起 来 看 看 这 些 数 据 库 命 令 到 确 是 什 
么 ， 到 愤 是 怎么 实现 的 。 本 市 也 会 介绍 MongoDB 提 供 的 一 些 非常 有 用 


的 命令 。 在 shell 中 运行 db.1istcommands() 可 以 看 到 所 有 的 数据 库 命令 。 
数据 库 命 令 工 作 原 理 


数据 库 命 令 忆 会 返回 一 个 包含 "ok" 键 的 文档 。 如 果 "ok" 的 值 是 1， 说 明 
命令 执行 成 功 了 ; 如 果 值 是 9， 说明 由 于 一 些 原因 ， 命 令 执行 失败 。 
如 果 "ok" 的 值 是 90， 那么 命令 的 返回 文档 中 束 会 有 一 个 额外 的 

键 "errmsg"。 它 的 值 是 一 个 字符 串 ， 用 于 摘 述 命令 的 失败 原因 。 例 如 ， 
如 果 试 着 在 上 一 市 已 经 删除 的 集合 上 再 次 执行 drop 命 令 : 


> db.runCommand({"drop" : "test"}); 
{ "errmsg" : "ns not found", "ok" : false } 





MongoDB 中 的 命令 被 实现 为 一 种 特殊 类 型 的 查询 ， 这 些 特殊 的 查询 会 
在 $cmd 和 集合 上 执行 。runcommand 只 是 接受 一 个 命令 文档 ， 并 且 执 行 与 这 
个 命令 文档 等 价 的 查询 。 于 是 ，drop 命 令 会 被 转换 为 如 下 代码 : 


db.$cmd.findone({"drop" : "test"}); 


当 MongoDB 服 务 器 得 到 一 个 在 $cmd 和 集合 上 的 查询 时 ， 不 会 对 这 个 查询 进 
行 通常 的 查询 处 理 ， 而 是 会 使 用 特殊 的 逻辑 对 其 进行 处 理 。 几 乎 所 有 的 
MongoDB 了 驱动 程序 都 会 提供 一 个 类 似 runcommand 的 辅助 函数 ， 用 于 执行 
命令 ， 而 且 命 令 总 是 能 够 以 简单 查询 的 方式 执行 。 


有 些 命令 需要 有 管理 员 权 限 ， 而 且 要 在 admin 数 据 库 上 才能 执行 。 如 果 
在 其 他 数据 库 上 执行 这 样 的 命令 ， 就 会 得 到 一 个 "access denied" (访问 
被 拒绝 ) 错误 。 如 果 当 前 位 于 其 他 的 数据 库 ， 但 是 需要 执行 一 个 管理 员 


命令 ， 可 以 使 用 admincommand 而 不 是 runcommand: 





> USe temp 

switched to db temp 

> db.runCommand( {shutdown:1}) 

{ "errmsg" : "access denied; use admin db", "ok" : 0 } 
> db.adminCommand({"shutdown" : 1}) 


MongoDB 中 ， 数 据 库 命令 是 少数 与 字段 顺序 相关 的 地 方 之 一 : 命令 名 
称 必须 是 命令 中 的 第 一 个 字段。 因此 ， {"getLastError" :; 1, "w" :2} 
是 有 效 的 命令 ， 而 f"w" : 2，"getLastError" :; 1} 丰 是 。 


设计 应 用 


第 5 章 索引 


本 章 介 绍 MongoDB 的 索引 ， 索 引 可 以 用 来 优化 碍 询 ， 而 且 在 茶 些 特定 
类 型 的 查询 中 ,索引 是 必 不 可 少 的 。 








。 什么 是 索引 ? 为 什么 要 用 索引 ? 

。 如 何 选择 需要 建立 索引 的 字段 ? 

。 如 何 强 制 使 用 索引 ? 如 何 评估 索引 的 效率 ? 
。 创建 索引 和 删除 索引 。 


为 集合 选择 合适 的 索引 是 提高 性 能 的 关键 。 
5 人 向 外 


数据 库 索 引 与 书籍 的 索引 类 似 。 有 了 寺 引 就 不 需要 翻 整 本 书 ， 数 据 库 可 
以 直接 在 索引 中 查找 ， 在 索引 中 找到 条 目 以 后 ， 束 可 以 直接 跳 转 到 目标 
文档 的 位 置 ， 这 能 使 得 找 速度 提高 儿 个 数量 级 。 


不 使 用 索引 的 查询 称 为 全 表 扫 描 〈 这 个 术语 来 自 关 系 型 数据 库 ) ， 也 就 
古 说 ， 服 务 器 必须 碍 找 完 一 整 本 书 才 能 找到 碍 询 结 末 。 这 个 处 理 过 程 与 
我 们 在 一 本 没有 索引 的 书 中 碍 找 信 息 很 像 : 从 第 1 页 开始 一 直 读 完整 本 
书 。 通 党 来 说 ， 应 该 尽量 避免 全 表 扫 描 ， 因 为 对 于 大 集合 来 说 ， 全 表 扫 
描 的 效率 非常 低 。 


来 看 一 个 例子 ， 我 们 创建 了 一 个 拥有 1 000 000 个 文档 的 集合 (如 果 你 想 
要 10 000 000 或 者 100 000 000 个 文档 也 行 ， 只 要 你 有 那个 耐心 ) : 


> for (i=0; i<1000000; I++) { 
oh db.users.insert( 























"Username" : "user"+i, 
"age" : Math.floor(Math.random()*120), 
"created" : new Date() 


} 
汪 ); 
.. } 


如 果 在 这 个 集合 上 做 查询 ， 可 以 使 用 explain() 函 数 查 看 MongoDB 在 执 


行 查 询 的 过 程 中 押 做 的 事情 。 下 面试 着 查询 一 个 随机 的 用 户 名 : 
> db.users.find({username: "user101"}).explain() 


"cursor™" : "BasicCursor", 
"nscanned" : 1000000, 
"nscannedOobjects" : 1000000, 
un -+ 1 

枯 
"millis" :; 721, 
"nYields" : 0, 
"nCchunkSkips" : 0, 
"isMultikey" : false, 
"indexOonly" : false, 
"indexBounds" : { 


5.2 节 会 详细 介绍 输出 信息 里 的 这 些 字 段 ， 目 前 来 说 可 以 忽略 大 多 数字 

段 。"nscanned" 征 MongoDB 在 完成 这 个 查询 的 过 程 中 扫描 的 文档 总 数 。 

可 以 看 到 ， 这 个 集合 中 的 每 个 文档 都 被 扫描 过 了 。 也 就 是 说 ， 为 了 完成 
这 个 查询 ，MongoDB 奉 看 了 每 一 个 文档 中 的 每 一 个 字段 。 这 个 查询 耗 

0 "millis" 字 段 显 示 的 是 这 个 查询 耗 费 的 坚 

秒 数 。 


字段 "'n" 显 示 了 查询 结果 的 数量 ， 这 里 是 1， 因 为 这 个 集合 中 确实 只 有 一 
个 username 为 "user101" 的 文档 。 注 意 ， 由 于 不 知道 集合 里 的 username 字 
段 是 唯一 的 ，MongoDB 不 得 不 查看 集合 中 的 每 一 个 文档 。 为 了 优化 查 
询 ， 将 查询 结果 限制 为 1， 这 样 MongoDB 在 找到 一 个 文档 之 后 就 会 停止 
了 了: 











> db.users.find({username: "user101"}).1imit(1).explain() 


"cursor™" : "BasicCursor", 
"nscanned" : 102, 
"nscannedobjects" : 102, 
于 9 1 

/ 
"millis" :; 2, 


"nYields" : 0, 
"nCchunkSkips" : 0, 
"isMultikey" : false, 
"indexOonly" : false, 
"indexBounds" : { 





现在 ， 所 扫描 的 文档 数量 极 大 地 减少 了 ， 而 且 整 个 查询 几乎 是 瞬间 完成 





的 。 但 是 ， 这 个 方案 是 不 现实 的 : 如 果 要 碍 找 的 是 user999999 呢 ? 我 们 
仍然 不 得 不 过 历 整个 集合 ， 而 且 ， 随 着 用 户 的 增加 ， 碍 询 会 越 来 越 慢 。 


对 于 此 类 查询 ， 索 引 是 一 个 非常 好 的 解决 方案 : 索引 可 以 根据 给 定 的 字 
段 组 织 数 据 ， 让 MongoDB 能 够 非常 快 地 找到 目标 文档 。 下 面 尝试 
在 username 字 段 上 创建 一 个 索引 : 


> db.users.ensureIndex({"username" : 1}) 























由 于 机 器 性 能 和 集合 大 小 的 不 同 ， 创 建 索 引 有 可 能 需要 花 几 分 钟 时 间 。 
如 果 对 ensureIndex 的 调用 没 能 在 几 秒 钟 后 返回 ， 可 以 在 男 一 个 shell 中 执 
行 db.currentop() 或 者 是 检查 mongod 的 日 志 来 查看 索引 创建 的 进度 。 


索引 创建 完成 之 后 ， 再 次 执行 最 初 的 查询 : 





> db.users.find({"username" : "user101"}).explain() 
"cursor" : "BtreeCursor username_1", 
"nscanned" :; 1, 
"nscannedOobjects" : 1, 
"nu 1, 
"millis" :; 3, 


"nYields" : 0, 
"nCchunkSkips" : 0, 
"isMultikey" : false, 
"indexOonly" : false, 
"indexBounds" : { 
"username" :; [ 
[ 
"user101", 
"user101" 
] 
] 
} 
} 


这 次 explain() 的 输出 内 容 比 之 前 复杂 一 些 ， 但 是 目前 我 们 只 需要 注 

意 "n"、 "nscanned" 和 "millis" 这 几 个 字段 ， 可 以 忽略 其 他 字段 。 可 以 看 
到 ， 这 个 查询 现在 几乎 是 瞬间 完成 的 〈 甚 至 可 以 更 好 ) ， 而 且 对 于 任 
意 username 的 查询 ， 所 耗费 的 时 间 基 本 一 致 : 


> db.users.find({username: "user999999"}).explain().millis 














可 以 看 到 ， 使 用 了 索引 的 查询 几乎 可 以 瞬间 完成 ， 这 是 非常 激动 人 心 





的 。 然 而 ， 使 用 索引 是 有 代价 的 : 对 于 添加 的 每 一 个 索引 ， 每 次 写 操作 
插入、 更 新 、 删 除 ) 都 将 耗费 更 多 的 时 间 。 这 是 因为 ， 当 数据 发 生变 
动 时 ，MongoDB 不 仅 要 更 新 文档 ， 还 要 更 新 集合 上 的 所 有 索引 。 
此 ，MongoDB 限 制 每 个 集合 上 最 多 只 能 有 64 个 索引 。 通 党 ， 在 一 个 特 
定 的 集合 上 ， 不 应 该 拥有 两 个 以 上 的 索引 。 于 是 ， 挑 选 合适 的 字段 建立 
索引 非常 重要 。 





“MongoDB 的 索引 几乎 与 传统 的 关系 型 数据 库 索引 一 模 
一 样 ， 所 以 如 果 已 经 掌握 了 那些 技巧 ， 则 可 以 跳 过 本 节 的 语法 说 
明 。 后 面 会 介绍 一 些 索 引 的 基础 知识 ， 但 一 定 要 记 住 这 里 涉及 的 只 
是 冰山 一 角 。 绝 大 多 数 优 化 MySQL/Oracle/SQLite 索 引 的 技巧 同样 
也 适用 于 MongoDB (包括 “Use the Index， Luke” 上 的 教程 http://use- 
the-index-luke.com) 。 


为 了 选择 合适 的 键 来 建立 索引 ， 可 以 查看 常用 的 查询 ， 以 及 那些 需要 被 
优化 的 查询 ， 从 中 找 出 一 组 常用 的 键 。 例如， 在 上 面 的 例子 中 ， 查 询 是 
在 "username" 上 进行 的 。 如 果 这 是 一 个 非常 通用 的 查询 ， 或 者 这 个 查询 
造成 了 性 能 瓶 倾 ， 那 么 在 "username" 上 建立 索引 会 是 非常 好 的 选择 。 然 
而 ， 如 果 这 只 是 一 个 很 少 用 到 的 查询 ， 或 者 只 是 给 管理 员 用 的 查询 ( 管 
理 员 并 不 需要 太 在 意 查 询 耗费 的 时 间 ) ， 那 就 不 应 该 对 "username" 建 并 


~ | 


5.1.1 复合 索引 简介 


索引 的 值 是 按 一 定 顺序 排列 的 ， 因 此 ， 使 用 索引 键 对 文档 进行 排序 非常 
快 。 然 而 ， 只 有 在 首先 使 用 索引 键 进行 排序 时 ， 索 引 才 有 用 。 例 如 ， 在 
下 面 的 排序 里 ， "username" 上 的 索引 没什么 作用 : 


> db.users.find().sort({"age" : 1, "username" :; 1}) 

















这 里 先 根据 "age" 排 序 再 根据 "username" 排 序 ， 所 以 "username" 在 这 里 发 
i 为 了 优化 这 个 排序 ， 可 能 需要 在 "age" 和 "username" 上 
建立 索引 : 








> db.users.ensureIndex({"age" : 1, 


这 样 束 建 并 了 一 个 复合 索引 (compound index) 。 











"username" : 1}) 


如 果 碍 询 中 有 多 个 排 





这 个 索引 就 会 非常 有 用 。 复 合 索引 就 


是 一 个 建立 在 多 个 字 
假如 我 们 有 一 








不 排序 〈 称 为 目 然 顺 序 ) 的 碍 询 : 


"USername" 

"USername" : 
"UsSername" : 
"UsSername" : 
"UsSername" : 
"UsSername" : 
"UsSername" : 
"UsSername" : 
"USername" : 
"USername" : 
"UsSername" : 


一 一 一 一 一 一 一 一 一 一 V 


如 朵 使 用 {"age" 
这 个 样子 : 


[0, "user100309"] - 


[0, "user100334"] 
[0, "user100479"] 


[0, "user99985" ] 
[1, "user100156"] 
[1, "user100187"] 
[1, "user100192"] 


[1, "user999920"] 
[2, "user100141"] 
[2, "user100149"] 
[2, "user100223"] 





工 ， 


1 1 
V V V 


和 
VVVV 


et 
VVVV 


db .Users ， i Ed 0 NI 
"userQO", 

"user1", 

"user2", 
"user3", 
"user4", 
"User5", 
"user6", 
"user7", 
"User8", 
"userg9", 
"user10", 


"age" : 
"age" : 
"age" 
"age" : 
"age" 
"age" : 
"age" : 
"age" : 
"age" : 
"age" ;7} 

"age" 


"USername" 


Ox0Oc965148 
oxf51f818e 
OQxOOfd7934 


Oxd246648f 
Oxf78d5bdd 
Ox68ab28bd 
Ox5c7fb621 


Ox67ded4b7 
Ox3996dd46 
Oxfce68412 
Ox91106e23 


个 users 集 合 〈 如 下 所 示 ) ， 如 果 在 这 个 集合 上 执行 一 个 


"created"”: 0}) 


1 建立 索引 ， 这 个 索引 大 致 会 是 


每 一 个 索引 条 目 都 包含 一 个 "age" 字 段 和 一 个 "username" 字 段 ， 并 且 指 同 
文档 在 磁盘 上 的 存储 位 置 〈 这 里 使 用 十 六 进 制 数字 表示 ， 可 以 忽略 ) 。 


注意 ， 


这 里 的 "age" 字 段 是 严格 升序 排列 的 ， 





"age" 相 同 的 条 目 按 


照 "username" 升 序 排列 。 人 





这 里 只 是 挑选 了 少量 数据 用 于 传达 大 概 的 信息 。 


人 引 的 使 用 方式 取决 于 查询 的 类 型 。 下 面 是 三 种 主要 
和 27 


e db.users.find({"age" : 21}).sort({"username" :; -1}) 
这 是 一 个 点 查询 (point query) ， 用 于 查找 单个 值 〈( 尽 管 包 含 这 个 
值 的 文档 可 能 有 多 个 ) 。 由 于 索引 中 的 第 二 个 字段 ， 但 询 结果 已 经 
是 有 序 的 了 : 3 : 21} 匹 配 的 最 后 一 个 索引 开 
始 ， 逆 序 依 次 过 有 历 索 引 : 


[21， "user999977"] -> Ox9b3160cf 
[21， "user999954"] -> 0xfe039231 
[21， "user999902"] -> Ox719996aa 








这 种 类 型 的 查询 是 非常 高 效 的 ; MongoDB 能 够 直接 定位 到 正确 的 
年 龄 ， 而 且 不 需要 对 结果 进行 排序 (因为 只 需要 对 数据 进行 逆序 裔 
历 就 可 以 得 到 正确 的 顺序 了 ) 。 

注意 ， 排 序 方向 并 不 重要 : MongoDB 可 以 在 任意 方向 上 对 索引 进 
行 轴 历 。 


e db.users.find({"age" : {"$gte" : 21, "$lte" : 30}}) 
这 是 一 个 多 值 查 询 (multi-value ”query) ， 碍 找到 多 个 值 相 匹配 的 
文档 《在 本 例 中 ， 年 龄 必须 介 于 21 到 30 之 间 ) 。MongoDB 会 使 用 
索引 中 的 第 一 个 vage" 得 到 匹配 的 文档 . 如 下 所 示 : 


[21， "user100000"] -> Ox37555a81 
[21, "user100069"] -> Ox6951d16f 
[21， "user1001"] -> Ox9aif5eQOc 
[21, "user100253"] -> Oxd54bd959 
[21, "user100409"] -> Ox824fef6c 
[21, "user100469" 

















-> Ox5fba778b 


] 
] 
， "User -> Ox c 
30, " 999775" Ox45182d8 
， "User -> Ox e 
30, " 999850" Ox1ldf279e9 
， "User -> Ox525caa 
30, " 999936" Ox525 57 





| 如 果 MongoDB 使 用 索引 进行 查询 ， 那 么 查询 结果 文档 
通常 是 按照 索引 顺序 排列 的 。 





e db.users.find({"age" 有 {"$gte" 21， "$lte" 
30}}).sort({"username":1}) 





这 和 古 一 个 多 值得 询 ， 与 上 一 个 类 似 ， 只 是 这 次 需要 对 得 询 结果 进行 
排序 。 跟 之 前 一 样 ，MongoDB 会 使 用 索引 来 匹配 查询 条 件 : 








[21, "user100000" 
[21, "user100069" 
[21， "user1001"] 

[21, "user100253" 


-> Ox37555a81 
-> Ox6951d16f 
-> Ox9alif5eQc 
-> Oxd54bd959 


[22, "user100328"] -> 0x83376384 
22, "User100335"] -> Ox55932943 
[22, 


] 
] 
] 
[22, "user100004"] -> Ox81e862c5 
] 
] 
[22, "user100405"] -> Ox20e7e664 


然而 ， 使 用 这 个 索引 得 到 的 结果 集中 "username" 是 无 序 的 ， 而 查询 
要 求 结果 以 "username" 升 序 排列 ， 所 以 MongoDB 需 要 先 在 内 存 中 对 
结果 进行 排序 ， 然 后 才能 返回 。 因 此 ， 这 个 查询 通常 不 如 上 一 个 高 


效 。 

当然 ， 查 询 速度 取决 于 有 多 少 个 文档 与 查询 条 件 匹 配 : 如 果 结 果 集 
中 只 有 少数 几 个 文档 '，MongoDB 对 这 些 文档 进行 排序 并 不 需要 耗 
性 多 少时 间 。 如 果 结 果 集 中 的 文档 数量 比较 多 ， 查 询 速 度 就 会 比较 
慢 ， 甚 至 根本 不 能 用 : 如 果 结 采集 的 大 小 超过 32 MB，MongoDB 右 
会 出 错 ， 拒 绝对 如 此 多 的 数据 进行 排序 : 


Mon Oct 29 16:25:26 uncaught exception: error: { 
"$err" : "too much data for sort() with no index. add an index or 
specify a smaller limit", 
"code" : 10128 














最 后 一 个 例子 中 ， 还 可 以 使 用 男 一 个 索引 【同样 的 键 ， 但 是 顺序 调换 
0 {"username" : 1， "age" : 1}。MongoDB 会 反 转 所 有 的 索引 条 

， 但 是 会 以 你 期 望 的 顺序 返回 。MongoDB 会 根据 索引 中 的 "age" 部 分 
所 拓 出 匹配 的 文档 : 


"user0", 69] 

'user1", 50] 

'user10", 80] 

'user100", 48] 

'user1000", 111] 

'user10000", 98] 

'user100000", 21] -> 0x73f0b48d 


i pr ey ry 


["user100001", 
["user100002", 
["uvuser100003", 
["user100004", 
["uvuser100005", 


60] 
82] 
27] -> Ox0078f55f 
22] -> Ox5f0d3088 
95] 














这 样 非常 好 ， 因 为 不 需要 在 内 存 中 对 大 量 数 据 进行 排序 。 但 是 ， 

MongoDB 不 得 不 扫描 整个 索引 以 便 找 到 所 有 匹配 的 文档 。 因 此 ， 如 宋 
对 查询 结果 的 范围 做 了 限制 ， 那 么 MongoDB 在 几 次 匹配 之 后 就 可 以 不 
再 扫描 案 引 ， 在 这 种 情况 下 ， 将 排序 键 放 在 第 一 位 是 一 个 非常 好 的 俩 


略 。 


可 以 通过 explain() 来 得 看 MongoDB 对 db.users.find({f"agen" 
: 30}}).sort({"username" 


: 21, "$lte" 


> db.users.find({"age" : 
， Sort({"username" 


， explain() 


"cursor'" : 


"isMultikKey" 
: 83484, 
"nscannedobjects" 
"nscanned" 
"nscannedobjectsAllPlans" 
"nscannedAllPlans" 
"scanAndorder" 
"indexOonly" 
: 0, 


i 


"nNnYields" 


: 二 ) 的 默认 行为 : 


{"$gte" : 21, "$lte" : 30}}). 


: 1}) 


"BtreeCursor age_ 1 username_1", 
: false, 


: 83484, 
: 83484, 

: 83484, 
: 83484, 

: true, 

: false, 


"nChunkSkips" : 0, 


"millis" 


: 2766, 


"indexBounds" : { 


"age" ' 


] 
]， 


[ 


21, 
30 


"username" :; [ 


[ 


] 
}, 


"server" : 


"$minElJement" : 1 
小 
{ 


"$maxElement" : 1 


"spock:27017" 


{"$gte" 





可 以 忽略 大 部 分 字段 ， 后 面 会 有 相关 介绍 。 注意 ， "cursor" 字 段 说 明 这 
次 查询 使 用 的 索引 是 {"age" : 1， "user name" : 1}， 而 且 只 查找 了 不 
到 1/10 的 文档 〈"nscanned" 只 有 83484) ， 但 是 这 个 查询 耗费 了 差不多 3 
秒 的 时 间 〈"millis" 字 段 显 示 的 是 坚 秒 数 ) 。 这 里 的 "scanAndorder" 字 
EN 说 明 MongoDB 必 须 在 内 存 中 对 数据 进行 排序 ， 如 之 前 所 
I。 


可 以 通过 hint 来 强制 MongoDB 使 用 某 个 特定 的 索引 ， 再 次 执行 这 个 查 
询 ， 但 是 这 次 使 用 {f"username" : 1， "age" : 1} 作 为 索引 。 这 个 查询 
扫描 的 文档 比较 多 ， 但 是 不 需要 在 内 存 中 对 数据 排序 : 


> db.users.find({"age" : {"$gte" : 21, "$lte" : 30}}). 




















， Sort({"username" :; 1}) 

, hint({"username" :; 1, "age" : 1}). 

， explain() 
"cursor" :; "BtreeCursor username 1 age 1", 
"isMultikey" : false, 
"n" : 83484, 


"nscannedobjects" : 83484, 
"nscanned" : 984434, 
"nscannedOobjectsAllPlans" : 83484, 
"nscannedAllPlans" : 984434, 
"scanAndorder" : false, 
"indexOonly" : false, 

"nYields" : 0, 

"nCchunkSkips" : 0, 

"millis" : 14820, 


"indexBounds" : { 
"username" : [ 
"$minElement" : 1 
}, 
{ 
"$maxElement" : 1 
] 
]， 
"age" ' [ 
[ 
21， 
30 
] 
中 
}, 
"server" : "spock:27017" 


注意 ， 这 次 得 询 耗 沉 了 将 近 15 秒 才 完 成 。 对 比 鲜明 ， 第 一 个 索引 速度 更 
快 。 然 而 ， 如 果 限 制 每 次 查询 的 结果 数量 ， 新 的 局 家 产生 了 : 











> db.users.find({"age" : {"$gte" : 21，"$lte"”: 30}}). 
.. Sort({"username" : 1}). 
.. limit(1000). 
.. hint({"age" : 1, "username" :; 1}). 
.. explain()['millis'] 
2031 
> db.users.find({"age" : {"$gte" : 21, "$lte" : 30}}). 
.. Sort({"username" : 1}). 
.. limit(1000). 
.. hint({"username" : 1, "age" : 1}). 
.. explain()['millis'] 
181 


第 一 个 查询 耗费 的 时 间 仍 然 介 于 2 秒 到 3 秒 之 间 ， 但 是 第 二 个 查询 只 用 了 
不 到 1/5 秒 ! 因此 ， 应 该 就 在 应 用 程序 使 用 的 查询 上 执行 explain()。 排 
除 挥 那 些 可 能 会 导致 explain( ) 输 出 信息 不 准确 的 选项 。 


在 实际 的 应 用 程序 中 ，{"sortKkey" : 1， "guerycriteria" : 1 索引 通 
党 是 很 有 用 的 ， 因 为 大 多 数 应 用 程序 在 一 次 查询 中 只 需要 得 到 查询 结 

最 前 面 的 少数 结果 ， 而 不 是 所 有 可 能 的 结果 。 而 且 ， 由 于 索引 在 内 部 的 
组 织 形式 ， 这 种 方式 非常 易于 扩展 。 索 引 本 质 上 是 树 ， 最 小 的 值 在 最 左 
边 的 叶子 上 ， 最 大 的 值 在 最 右边 的 叶子 上 。 如 果 有 一 个 日 期 类 型 

的 "sortkey" (或 是 其 他 能 够 随时 间 增 加 的 值 )， 当 从 左 同 右 角 历 这 株 

树 时 ， 你 实际 上 也 花费 了 时 间 。 因 此 ， 如 果 应 用 程序 需要 使 用 最 近 数 据 
的 机 会 多 于 较 老 的 数据 ， 那 么 MongoDB 只 需 在 内 存 中 保留 这 棵 树 最 右 

侧 的 分 冯 《 最 近 的 数据 》， 而 不 必 将 整 棵 树 留 在 内 存 中 。 类 似 这 样 的 索 
引 是 右 平 衡 的 (right balanced) ， 应 该 尽 可 能 让 索引 是 右 平 稀 
的 a "cid" 索引 就 是 一 个 典型 用 有 平和 多 索引 。 


5.1.2 ”使 用 复合 索引 


在 多 个 键 上 建立 的 索引 就 是 复合 索引 ， 在 上 面 的 小 节 中 ， 已 经 使 用 过 复 
合 索 引 。 复 合 索 引 比 单 键 索引 要 复杂 一 些 ， 但 是 也 更 强大 。 本 布 会 更 深 
入 地 介绍 复合 索引 。 


1. 选择 键 的 方 癌 


到 目前 为 止 ， 我 们 的 所 有 索引 都 是 升序 的 《或 者 是 从 最 小 到 最 大 ) 。 但 
是 ， 如 果 需 要 在 两 个 〈 或 者 更 多 ) 查询 条 件 上 进行 排序 ， 可 能 需要 让 索 
引 键 的 方向 不 同 。 例 如 ， 假 设 我 们 要 根据 年 龄 从 小 到 大 ， 用 户 名 从 Z 到 
A 对 上 面 的 集合 进行 排序 。 对 于 这 个 问题 ， 之 前 的 索引 变 得 不 再 高 效 : 

每 一 个 年 龄 分 组 内 都 是 按照 "username" 升 序 排 列 的 ， 是 A 到 Z， 不 是 Z 到 





















































A。 对 于 按 "age" 升 序 排列 按 "username" 降 序 排 列 这 样 的 需求 来 说 ， 用 上 
面 的 索引 得 到 的 数据 的 顺序 没什么 用 。 


为 了 在 不 同方 向 上 优化 这 个 复合 排序 ， 需要 使 用 与 方向 相 匹 配 的 索引 。 
在 这 个 例子 中 ， 可 以 使 用 {f"age" : 1， "username" : -1}， 它 会 以 下 面 
的 方式 组 织 数据 : 


[21， "user999977"] -> Oxe57bf737 
[21， "user999954"] -> Ox8bffa512 
[21， "user999902"] -> Ox9e1447d1 
[21， "user999900"] -> Ox3a6a8426 
[21， "user999874"] -> Oxc353ee06 


[30, "user999936"] -> 0x7f39a81a 
[30, "user999850"] -> Oxa979e136 
[30, "user999775"] -> Ox5de6b77a 


30, "User100324"] -> Oxe14f8e4d 
[30， 

[30, "user100140"] -> Ox0Of34d446 
[30, "user100050"] -> 0x223c35b1 


年 龄 按照 从 年 轻 到 年 长 顺序 排列 ， 在 每 一 个 年 龄 分 组 中 ， 用 户 名 是 从 Z 
《对 于 我 们 的 用 户 名 来 说 ， 也 可 以 说 是 按照 "9" 到 "6@" 排 列 
避 


如 果 应 用 程序 同时 需要 按照 人 "age" : 1， "username" : 1} 优 化 排序 ， 
我 们 还 需要 创建 一 个 这 个 方向 上 的 索引 。 至 于 索引 使 用 的 方向 ， 与 排序 
方向 相同 融 可 以 了 。 注 意 ， 相 互 反 转 《在 每 个 方 同 都 乘 以 -1) 的 索引 是 
等 价 的 : {"age" : 1, "user name” : -1} 适 用 的 查询 与 {"agen" 人 
"Username" : 1} 是 完全 一 样 的 。 


只 有 基于 多 个 查询 条 件 进行 排序 时 ， 索 引 方 癌 才 是 比较 重要 的 。 如 果 只 
是 基于 单一 键 进 行 排序 ，MongoDB 可 以 简单 地 从 相反 方向 读 取 索 引 。 
例如 ， 如 有 果 有 一 个 基于 {"age”: -了 的 排序 和 一 个 基于 如 ae J 
引 ，MongoDB 会 在 使 用 索引 时 进行 优化 ， 就 如 同 存在 一 个 {"age" : - 
索引 一 样 〈 所 以 不 要 创建 两 个 这 样 的 索引 ! ) 。 只 有 在 基 于 多 汝 排序 “ 
时 ， 方 向 才 变 得 重要 。 


2. 使 用 履 盖 索引 (covered index) 


在 上 面 的 例子 中 ， 查 询 只 是 用 来 但 找 正确 的 文档 ， 然 后 按照 指示 获取 实 
际 的 文档 。 然 后 ， 如 果 你 的 碍 询 只 需要 得 找 索引 中 包含 的 字段 ， 那 就 根 












































本 没 必要 获取 实际 的 文档 。 当 一 个 索引 包含 用 户 请 求 的 所 有 字段 ， 可 以 
认为 这 个 索引 禾 六 了 本 次 查询 。 在 实际 中 ， 应 该 优先 使 用 窗 新 索引 ， 而 
0 
引 一 起 时 。 


为 了 确保 得 询 只 使 用 索引 就 可 以 完成 ， 应 该 使 用 投 映 〈 详 见 4.1.1) 来 
指定 不 要 返回 " id" 字段 〈 除 非 它 是 索引 的 一 部 分 ) 。 可 能 还 需要 对 不 
要 查询 的 字段 做 索引 ， 因 此 需要 在 编写 时 就 在 所 需 的 查询 速度 和 这 种 
方式 带 来 的 开销 之 间 做 好 权衡 。 


如 果 在 履 盖 索引 上 执行 explain()，"indexonly" 字 段 的 值 要 为 true。 


如 末 在 一 个 含有 数组 的 字段 上 做 索引 ， 这 个 索引 永远 也 无 法 上 黎 兰 碍 询 
(因为 数组 是 被 保存 在 索引 中 的 ，5.1.4 节 会 深入 介绍 ) 。 即 便 将 数组 字 
段 从 需要 返回 的 字段 中 剔除 ， 这 样 的 索引 仍然 无 法 履 兰 碍 询 。 


3. 隐 式 索引 


复合 索引 具有 双重 功能 ， 而 且 对 不 同 的 查询 可 以 表现 为 不 同 的 索引 。 如 
果 有 一 个 f"age" : 1， "username" : 1 索引 ，"age" 字 段 会 被 自动 排 
序 谍 好 像 有 一 个 ("age"” 5 1 党 引 一 样 s 因此 :这 个 复合 索引 可 以 当 
作 {"age" : 1} 索 引 一 样 使 用 。 


这 个 可 以 根据 需要 推广 到 尽 可 能 多 的 键 : 如 果 有 一 个 拥有 N 个 键 的 索 
引 ， 那 么 你 同时 : 多 费 得 到 本 所 有 这 N 个 键 的 二 级 组 成 失察 引 。 举例 来 
] 风 5 汉 四 采 清 二 科 汪 中 
2 实际 上 我 们 也 可 以 使 用 {rar 1}、 f{"a": 1， "b" : 1}、 {"a": 1, 
nb 系列 索引 


注意 ， 这 些 键 的 任意 子 集 所 组 成 的 索引 并 不 一 定 可 用 。 例 如 ， 使 

用 ft"b": 4} 或 者 f"a": 1，“"c": 二 作为 索引 的 查询 是 不 会 被 优化 的 :只 
有 能 够 使 用 索引 前 缀 的 查询 才 外 EE 从 中 受益 。 

5.1.3 $ 操 作 符 如 何 使 用 索引 


有 一 些 查 询 完 全 无 法 使 用 索引 ， 也 有 一 些 查询 能 够 比 其 他 查询 更 高 效 地 
使 用 索引 。 本 节 讲 述 MongoDB 对 各 种 不 同 查询 操作 符 的 处 理 。 












































1. 低 效率 的 操作 符 


有 一 些 查 询 完 全 无 法 使 用 索引 ， 比 如 "$where" 查 询 和 检查 一 个 键 是 否 存 
在 的 查询 ({"key" : f{"$exists" : true}}) 。 也 有 其 他 一 些 操 作 不 能 
高 效 地 使 用 索引 。 


如 果 "x" 上 有 一 个 索引 ， 查 询 那 些 不 包含 "x" 键 的 文档 可 以 使 用 这 样 的 索 
引 (f"x” : {"$exists"” : false}}。 然 而 ， 在 索引 中 ， 不 存在 的 字段 和 
null 字 段 的 存储 方式 是 一 样 的 ， 查 询 必须 遍历 每 一 个 文档 检查 这 个 值 是 
个 真 的 为 nul1 还 是 根本 不 存在 。 如 有 果 使 用 稀 玻 索引 〈sparse index) ， 就 
不 能 使 用 {"$exists" : truey， 也 不 能 使 用 {"$exists" : false}。 








通常 来 说 ， 取 反 的 效率 是 比较 低 的 。"$ne" 碍 询 可 以 使 用 索引 ， 但 并 不 
古 很 有 效 。 因 为 必须 要 碍 看 所 有 的 索引 条 目 ， 而 不 只 是 "$ne" 指 定 的 条 
目 ， 不 得 不 扫 质 整个 索引 。 例 如 ， 这 样 的 查询 遍历 的 索引 范围 如 下 : 


> db.example.find({"i" : {"$ne" : 3}}).explain() 





"cursor™" : "BtreeCursor i 1 multi", 
ey 
"indexBounds" : { 
人 : 
[ 
{ 
"$minElement" : 1 
}, 
3 
], 
[ 
3， 
{ 
"$maxElement" : 1 
] 
] 


这 个 查询 查找 了 所 有 小 于 3 和 大 于 3 的 索引 条 目 。 如 果 索 引 中 值 为 3 的 条 
目 非 常 多 ， 那 么 这 个 查询 的 效率 是 很 不 错 的 ， 售 则 的 话 ， 这 个 碍 询 就 不 
得 不 检查 几乎 所 有 的 索引 条 目 。 


"$not" 有 了 时 能 够 使 用 索引 ， 但 是 通常 它 并 不 知道 要 如 何 使 用 索引 。 它 能 
够 对 基本 的 范围 (比如 将 {f"'key" : {"$1lt" : 7}} 变 成 {'"key" 








{"$gte" : 7}}) 和 正则 表达 式 进行 反 转 。 然 而 ， 大 多 数 使 用 "$not" 的 查 
询 都 会 退化 为 进行 全 表 扫 描 。"$nin" 就 总 是 进行 全 表 扫 描 。 


如 果 需 要 快速 执行 一 个 这 些 类 型 的 查询 ， 可 以 试 着 找到 男 一 个 能 够 使 用 
索引 的 语句 ， 将 其 添加 到 查询 中 ， 这 样 就 可 以 在 MongoDB 进 行 无 索引 
匹配 (non-indexed matching) 时 先 将 结果 集 的 文档 数量 减 到 一 个 比较 小 
的 水 平 。 

假如 我 们 要 找 出 所 有 没有 "birthday" 字 段 的 用 户 。 如 果 我 们 知道 从 3 月 
20 开 始 ， 程 序 会 为 每 一 个 新 用 户 添 加 生日 字段 ， 那 么 就 可 以 只 查询 3 月 
20 之 前 创建 的 用 户 : 


> db.users.find({"birthday" : {"$exists" : false}, "_id" : {"$1lt" : march20Id}}) 











这 个 查询 中 的 字段 顺序 无 关 紧 要 ，MongoDB 会 自动 找 出 可 以 使 用 索引 
的 字段 ， 而 无 视 人 查询 中 的 字段 顺序 。 


2. 范围 


复合 索引 使 MongoDB 能 够 高 效 地 执行 拥有 多 个 语句 的 查询 。 设 计 基于 
多 个 字段 的 索引 时 ， 应 该 将 会 用 于 精确 匹配 的 字段 〈 比 如 nx" : 
"foo") 放 在 索引 的 前 面 ， 将 用 于 范围 匹配 的 字段 〈 比 如 "y" : {"$gt" : 
3， "$lt" : 5}) 放 在 最 后 。 这 样 ， 查 询 就 可 以 先 使 用 第 一 个 索引 键 进 
行 精确 匹配 ， 然 后 再 使 用 第 二 个 索引 范围 在 这 个 结果 集 内 部 进行 搜索 。 
假设 要 使 用 {"age" : 1， "username" : 1} 索 引 查询 特定 年 龄 和 用 户 名 
范围 内 的 文档 ， 可 以 精确 指定 索引 边界 值 : 


> db.users.find({"age" : 47, 








... "Username" : {"$gt" : "user5", "$1lt" :; "user8"}}).explain() 
{ 
"cursor" :; "BtreeCursor age 1 username_1", 
"Nn" :; 2788, 
"nscanned" : 2788, 
i 
"indexBounds" : { 
"age" 9 [ 
[ 
47, 
47 
] 
], 
"username" : [ 


"user5", 





这 个 查询 会 二 接 定位 到 "age" 为 47 的 索引 条 目 ， 然 后 在 其 中 搜索 用 户 名 


介 于 "user5" 和 "user8" 的 条 目 。 





反 过 来 ， 假 如 使 用 {f"username" : 1， "age" : 41 索引， 这样 承 改变 了 
查询 计划 (guery plan) ， 查 询 必须 先 找 到 介 于 "user5" 和 "user8" 之 间 的 
所 有 用 户 ， 然 后 再 从 中 挑选 "age" 等 于 47 的 用 户 。 


> db.users.find({"age" : 47, 


"username" : {"$gt" : "user5", "$1lt" :; "user8"}}).explain() 
人 
"cursor"”: "BtreeCursor Username_1 age_1"， 
"n"” :2788 ， 
"nscanned" : 319499 ， 
有 
"indexBounds" : { 
"username" :; [ 
[ 
"User5"， 
"User8" 
] 
]， 
"age" 日 [ 
[ 
47, 
47 
] 
] 
}, 
"server" : "spock:27017" 
} 











本 次 查询 中 MongoDB 扫 描 的 索引 条 目 数 量 是 前 一 个 查询 的 10 倍 ! 在 一 
次 查询 中 使 用 两 个 范围 通常 会 导致 低 效 的 查询 计划 。 


3. OR 查询 


写作 本 书 时 ，MongoDB 在 一 次 查询 中 只 能 使 用 一 个 索引 。 如 果 你 在 {"x" 
上 有 一 个 索引 ,在 局 二 于 2 Vy 
: 456} 上 进行 查询 时 ，MongoDB 会 使 用 其 中 的 一 个 索引 ， 而 不 是 两 个 一 
起 用 。"$or" 是 个 例外 ，"$or" 可 以 对 每 个 子 句 都 使 用 索引 ， 因 为 "$or" 实 











际 上 是 执行 两 次 查询 然后 将 结果 集合 并 。 





> db.foo.find({"$or"”: [{"x"” : 123}, {"y" 


{ 


"clauses" :; [ 
{ 

"cursor" : "BtreeCursor x_1", 
"isMultikey" : false, 
"nn : 和 
"nscannedOobjects" : 1 
"nscanned"” : 1, 
"nscannedobjectsAllPlans" : 1, 
"nscannedAllPlans" : 1, 
"scanAndorder" : false, 


"indexOonly" : false, 
"nYields" : 0, 
"nCchunkSkips" : 0， 


"millis" : 0, 
"indexBounds" : { 
Tx" [ 
[ 
123, 
123 
] 
] 
} 
}, 
{ 
"cursor" :; "BtreeCursor y_1", 
"isMultikey" : false, 
nnnm : 1, 
"nscannedOobjects" :; 1, 
"nscanned" : 1, 
"nscannedobjectsAllPlans" : 1, 
"nscannedAllPlans" : 1, 
"scanAndOorder" : false, 
"indexOonly" : false, 
"NnYields" : 0, 
"nChunkSkips" : 0, 
"millis" : 0, 
"indexBounds" : { 
A [ 
[ 
456, 
456 
] 
] 
} 
} 
], 
于 之 
"nscannedOobjects" : 2, 
"nscanned" : 2, 
"nscannedobjectsAllPlans" :; 2, 
"nscannedAllPlans" : 2, 
"millis" : 0, 
"server" : "spock:27017" 


: 456}]}).explain() 


可 以 看 到 ， 这 次 的 explain() 输 出 结果 由 两 次 独立 的 查询 组 成 。 通 常 来 
说 ， 执 行 两 次 查询 再 将 结果 合并 的 效率 不 如 单 次 查询 高 ， 因 此 ， 应 该 尽 
可 能 使 用 "$in" 而 不 是 "$or"。 


如 果 不 得 不 使 用 "$or"， 记 住 ，MongoDB 需 要 检查 每 次 查询 的 结果 集 并 
且 从 中 移 除 重复 的 文档 (有些 文档 可 能 会 被 多 个 "$or" 子 句 罗 配 到 〉。 


使 用 "$in" 查 询 时 无 法 控制 返回 文档 的 顺序 (除非 进行 排序 ) 。 例 如 ， 
| [1， 2， 3]} 与 使 用 {"x" : [3， 2， 1]} 得 到 的 文档 顺序 是 
日 同 的 。 


5.1.4 索引 对 象 和 数组 

MongoDB 人 允许 深入 文档 内 部 ， 对 藤 套 字段 和 数组 建立 索引 。 舱 套 对 象 

和 数组 字段 可 以 与 复合 索引 中 的 顶级 字段 一 起 使 用 ， 虽 然 它 们 比较 特 

殊 ， 但 是 大 多 数 情况 下 与 “正常 ?索引 字段 的 行为 是 一 致 的 。 

1. 索引 上 般 套 文 档 

可 以 在 租 套 文档 的 键 上 建立 索引 ， 方 式 与 正常 的 键 一 样 。 如 果 有 这 样 一 


个 集合 ， 其 中 的 第 一 个 文档 表示 一 个 用 户 ， 可 能 需要 使 用 明 套 文档 来 表 
示 每 个 用 户 的 位 置 : 




















{ 
"username" : "sid", 
"Joc" : { 
"ip" : T1273.4!，, 
"city" : "Springfield", 
"state™ : "NY" 
} 
} 


需要 在 "loc" 的 某 一 个 子 字段 (比如 "loc.city") 上 建立 索引 ， 以 便 提高 
这 个 字段 的 查询 速度 ; 


> db.users.ensureIndex({"1loc.city" : 1}) 








可 以 用 这 种 方式 对 任意 深层 次 的 字段 建立 索引 ， 比 如 你 可 以 
在 "x.y.z.w.a.b.c" 上 建立 索引 。 





注意 ， 对 岁 套 文档 本 身 ("loc") 建立 索引 ， 与 对 藤 套 文档 的 某 个 字段 
("loc.city") 建立 索引 是 不 同 的 。 对 整个 子 文档 建立 索引 ， 只 会 提高 
整个 子 文档 的 查询 速度 。 在 上 面 的 例子 中 ， 只 有 在 进行 与 子 文档 字段 顺 
序 完全 匹配 的 子 文档 查询 时 (比如 dp， users. i ‘loc" : foip" : 











"123.456.789.000" "city 2 "Shelbyville", "state" 
"NY"}}})) ， 查询 优化 器 才 会 使 用 "locv" 上 的 索引 - 无 法 对 形 如 
db.users.find({"loc.city"” : "Shelbyville"}) 的 查询 使 用 索引 。 


2. 索引 数组 

也 可 以 对 数组 建立 索引 ， 这 样 就 可 以 高 效 地 搜索 数组 中 的 特定 元 素 。 

假如 有 一 个 全 客 文 章 崔 集合， 其 中 每 个 文档 表 不 一 篇 义 章 。 得 篇 义 草 都 
一 个 "comments" 字 段 ， 这 是 一 个 数组 ， 其 中 每 个 元 素 都 是 一 个 评论 子 


文档 。 如 果 想 要 找 出 最 近 被 评论 次 数 最 多 的 博客 文章 ， 可 以 在 博客 文章 
集合 中 骸 套 的 "comments" 数 组 的 "date" 键 上 建立 索引 : 


> db.blog.ensureIndex({"comments.date" :; 1}) 





对 数组 建 并 索引 ， 实 际 上 是 对 数组 的 每 一 个 元 系 建 立 一 个 索引 条 目 ， 所 

以 如 果 一 篇 文章 有 20 条 评论 ， 那 么 它 就 拥有 20 个 索引 条 目 。 因 此 数组 索 

i 对 于 单 次 插入 、 0 每 一 个 数组 条 
能 都 需要 更 新 〈 可 能 有 上 于 个 索引 条 


与 上 一 节 中 "loc" 的 例子 不 同 ， 无 法 将 整个 数组 作为 一 个 实体 建立 过 
引 : 对 数组 建立 索引 ， 实 际 上 是 对 数组 中 的 每 个 元 妹 建 立 索 引 ， 而 不 是 
对 数组 本 身 建立 索引 。 


ns 无 法 使 用 数组 索引 查找 特 
定位 置 的 数组 元 素 ， 比 如 "comments.4" 


少数 特殊 情况 下 ， 可 以 对 茶 个 特定 的 数组 条 目 进行 索引 ， 比 如 : 


> db.blog.ensureIndex({"comments.10.votes": 1}) 

















然而 ， 只 有 在 精确 匹配 第 11 个 数组 元 素 时 这 个 索引 才 有 用 (数组 下 标 从 
0 开始 ) 。 





一 个 索引 中 的 数组 字段 最 多 只 能 有 一 个 。 这 是 为 了 避免 在 多 键 索引 中 索 
引 条 目 爆炸 性 增长 : 每 一 对 可 能 的 元 素 都 要 被 索引 ， 这 样 导致 每 个 文档 
拥有 ms#m 个 索引 条 目 。 假 如 有 一 个 {"x" : 1，"y" : 1} 上 的 索引 : 








// x 是 一 个 数组 一 这 是 合法 的 
db.multi.insert({"x" : [1, 2, 3], "y" : 1}) 
/ 














/ y 是 一 个 数组 一 这 也 是 合法 的 
db.multi,.insert({"x" : 1, "y" : [4, 5, 6]}) 





> 
> 
> 
> 
> 
> 





> // x 和 y 都 是 数组 一 这 是 非法 的 ! 
> db.multi.insert({"x" : [1, 2, 3], "y" : [4, 5, 6]}) 
cannot index parallel arrays [y] [x] 


如 果 MongoDB 要 为 上 面 的 最 后 一 个 例子 创建 索引 ， 它 必须 要 创建 这 么 
多 索引 条 月 : {"x" : 1， "yn : 4}、 {"x" : 1， "yn : 5}、 {"x" : 工 ， 
"yn : 6}、 {"x" : 2， "yn" : 4}、 {"x" : 2， "yn" : 5}, {"x" Pe 
"yn : 6}、 {"x" : 3， "yn" : 4}、 {"x" : 3， "yn" : 5} 和 和 {"x" : 3， 
"y" : 6}。 尺 管 这 些 数组 只 有 3 个 元 素 。 


3. 多 键 索 引 


对 于 某 个 索引 的 键 ， 如 果 这 个 键 在 某 个 文档 中 是 一 个 数组 ， 那 么 这 个 索 
引 束 会 被 标记 为 多 键 索 引 (multikey index) 。 可 以 从 explain() 的 输出 
中 看 到 一 个 索引 是 否 为 多 键 索 引 : 如 果 使 用 了 多 键 索 

引 ，"isMultikey" 字 有 段 的 值 会 是 true。 索 引 只 要 被 标记 为 多 键 索 引 ， 就 
无 法 再 变 成 非 多 键 索 引 了 ， 即 使 这 个 字段 为 数组 的 所 有 文档 都 从 集合 中 
删除 。 要 将 多 键 索引 恢复 为 非 多 键 索 引 ， 唯 一 的 方法 驶 是 删除 再 重建 这 
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多 键 索引 可 能 会 比 非 多 键 索引 慢 一 些 。 可 能 会 有 多 个 索引 条 目 指向 同一 
个 文档 ， 因 此 MongoDB 在 返回 结果 集 时 必须 要 先 去 除 重复 的 内 容 。 


5.1.5 索引 基数 


基数 〈cardinality) 就 是 集合 中 某 个 字段 拥有 不 同 值 的 数量 。 有 一 些 字 
段 ， 比 如 "gender'" 或 者 "newsletter opt-out"， 可 能 只 拥有 两 个 可 能 的 
值 ， 这 种 键 的 基数 就 是 非常 低 的 。 另 外 一 些 字 段 ， 比 如 "username'" 或 
者 "email"， 可 能 集合 中 的 每 个 文档 都 拥有 一 个 不 同 的 值 ， 这 类 键 的 基 
数 是 非常 高 的 。 当 然 也 有 一 些 介 于 两 者 之 间 的 字段 ， 比 如 "age'" 或 








者 "zip code"。 


通常 ， 一 个 字段 的 基数 越 高 ， 这 个 键 上 的 索引 束 越 有 用 。 这 是 因为 索引 
能 够 迅速 将 搜索 范围 缩小 到 一 个 比较 小 的 结果 集 。 对 于 低 基 数 的 字段 ， 
索引 通 第 无 法 排除 挥 大 量 可 能 的 匹配 。 


假设 我 们 在 "gender" 上 有 一 个 索引 ， 需 要 查找 名 为 Susan 的 女性 用 户 。 
通过 这 个 索引 ， 只 能 将 搜索 空间 缩小 到 大 约 50%， 然 后 要 在 每 个 单独 的 
文档 中 查找 "name" 为 "Susan" 的 用 户 。 反 过 来 ， 如 果 在 "name" 上 建立 索 
引 ， 就 能 立即 将 结果 集 缩 小 到 名 为 "susan" 的 用 户 ， 这 样 的 结果 集 非 常 
小 ， 然 后 就 可 以 根据 性 别 从 中 迅速 地 找到 匹配 的 文档 了 。 


一 般 说 来 ， 应 该 在 基数 比较 高 的 键 上 建立 索引 ， 或 者 至 少 应 该 把 基数 较 
高 的 键 放 在 复合 索引 的 前 面 〈 低 基数 的 键 之 前 ) 。 


5.2 ”使 用 explain0 和 hint(0) 


从 上 面 的 内 容 可 以 看 出 ，explain() 能 够 提供 大 量 与 查询 相关 的 信息 。 

对 于 速度 比较 慢 的 查询 来 说 ， 这 是 最 重要 的 诊断 工具 之 一 。 通 过 查看 一 
个 查询 的 explain() 输 出 信息 ， 可 以 知道 查询 使 用 了 哪个 索引 ， 以 及 是 
如 何 使 用 的 。 对 于 任意 查询 ， 都 可 以 在 最 后 添加 一 个 explain( ) 调 用 
《与 调用 sort() 或 者 Limit() 一 样 ， 不 过 explain() 必 须 放 在 最 后 ) 。 


最 常见 的 explain() 输 出 有 两 种 类 型 ， 使 用 索引 的 查询 和 没有 使 用 索引 

的 查询 。 对 于 特殊 类 型 的 索引 ， 生 成 的 查询 计划 可 能 会 有 些许 不 同 ， 但 
是 大 部 分 字段 都 是 相似 的 。 另 外 ， 分 片 返 回 的 是 多 个 explain() 的 聚合 

(第 13 章 会 介绍 ) ， 因 为 查询 会 在 多 个 服务 器 上 执行 。 


不 使 用 索引 的 查询 的 exlpain() 是 最 基本 的 explain() 类 型 。 如 果 一 个 查 
询 不 使 用 索引 ， 是 因为 它 使 用 了 "Basiccursor" (基本 游标 ) 。 反 过 来 
说 ， 大 部 分 使 用 索引 的 查询 使 用 的 是 Btreecursor 〈 某 些 特殊 类 型 的 索 
引 ， 比 如 地 理 空 间 索 引 ， 使 用 的 是 它们 自己 类 型 的 游标 ) 。 


对 于 使 用 了 复合 索引 的 查询 ， 最 简单 情况 下 的 explain() 输 出 如 下 所 
汐 























> db.users.find({"age" : 42}).explain() 
"cursor" :; "BtreeCursor age 1 username_1", 
"isMultikey" : false 


"n"” : 8332, 

"nscannedOobjects" : 8332, 
"nscanned" : 8332, 
"nscannedobjectsAllPlans" : 8332, 
"nscannedAllPlans" : 8332, 
"scanAndOorder" : false, 
"indexOonly" : false, 

"nYields" : 0, 

"nCchunkSkips" : 0, 

"millis" ; 91, 


"indexBounds" : { 
"age" ' [ 
[ 
42, 
42 
] 
"username" :; [ 
{ 
"$minEJement" : 1 
}, 
{ 
"$maxElement" : 1 
} 
] 
] 
}, 
"server™" : "ubuntu:27017" 


从 输出 信息 中 可 以 看 到 它 使 用 的 索引 是 age_1_username_1。 "millis" 表 
明了 这 个 查询 的 执行 速度 ， 时 间 是 从 服务 器 收 到 请 求 开 始 一 直到 发 出 响 
应 为 止 。 然 而 ， 这 个 数值 不 一 定 真 的 是 你 希望 看 到 的 值 。 如 果 
MongoDB 尝 试 了 多 个 查询 计划 ， 那 么 "millis" 显 示 的 是 这 些 查 询 计划 花 
费 的 总 时 间 ， 而 不 是 最 优 查 询 计划 所 花 的 时 间 。 


接 下 来 是 实际 返回 的 文档 数量 : "n"。 它 无 法 反映 出 MongoDB 在 执行 这 
个 查询 的 过 程 中 所 做 的 工作 : 搜索 了 多 少 索 引 条 目 和 文档 。 索 引 条 目 是 
使 用 "nscanned" 描 述 的 。"nscannedobjects" 字 段 的 值 承 是 所 扫 摘 的 文档 
数量 。 最 后 ， 如 果 要 对 结果 集 进 行 排 序 ， 而 MongoDB 无 法 对 排序 使 用 

索引 ， 那 么 "scanAndorder" 的 值 就 会 是 true。 也 就 是 说 ， MongoDB 不 得 
不 在 内 存 中 对 结果 进行 排序 ， 这 是 非常 慢 的 ， 而 且 结 果 集 的 数量 要 比较 


小 。 

















现在 你 已 经 知道 这 些 基础 知识 了 ， 接 下 来 依次 详细 介绍 这 些 字段 。 


e "cursor" : "BtreeCursor age_1 username_1" 


BtreeCursor 表 不 不 次 下 询 使 用 了 索引 ， 其 体 来 次 ， 征 使 用 

了 "age" 和 "username" 上 的 索引 {"age" : 1， "username" : 1}。 如 
果 查 询 要 对 结果 进行 逆序 裔 历 ， 或 者 是 使 用 了 多 键 索 引 ， 就 可 以 在 
这 个 字段 中 看 到 "reverse" 和 "multi" 这 样 的 值 。 








"isMultikey" : false 


用 于 说 明 本 次 得 询 是 人 否 使 用 了 多 键 索引 《〈 详 见 5.1.4 节 ) 。 


"Nn" ; 8332 


本 次 查询 返回 的 文档 数量 。 


"nscannedOobjects" :; 8332 

这 是 MongoDB 按 照 索 引 指 针 去 人 磁盘 上 查找 实际 文档 的 次 数 。 如 果 
查询 包含 的 但 询 条 件 不 是 索引 的 一 部 分 ， 或 者 说 要 求 返 回 不 在 索引 
内 的 字段 ，MongoDB 就 必须 依次 得 找 每 个 索引 条 目 指 回 的 文档 。 











"nscanned" : 8332 
如 果 有 使 用 索引 ， 那 么 这 个 数字 就 是 查找 过 的 索引 条 目 数量 。 如 果 
本 次 查询 是 一 次 全 表 扫 描 ， 那 么 这 个 数字 就 表示 检查 过 的 文档 数 


上 用. 
里 。 














"SCanAndorder”"” : false 


MongoDB 是 否 在 内 存 中 对 结果 集 进 行 了 排序 。 





"indexOnly" : false 
MongoDB 是 否 只 使 用 索引 就 能 完成 此 次 查询 《〈 详 见 “ 和 覆盖 索引 ?部 
ye 
在 本 例 中 ，MongoDB 只 使 用 索引 就 找到 了 全 部 的 匹配 文档 ， 
从 "nscanned" 和 "n" 相 等 束 可 以 看 出 来 。 然 而 ， 本 次 查询 要 求 返 回 
匹配 文档 中 的 所 有 字段 ， 而 索引 只 age' username' a 
(x 如 果 将 本 次 查询 修改 为 《{"- 

"username" 3 “那么 本 次 查询 就 可 以 被 索引 歼 革 
J ， "indexonly" 的 值 就 会 是 true， 





"NnYields" : 

为 了 让 写 入 请 求人 E 够 顺利 执行 ， 本 次 查询 暂停 的 次 数 。 如 果 有 写 入 
请 求 需要 处 理 ， 碍 询 会 周期 性 地 释放 它们 的 锁 ， 以 便 写 入 能 够 顺利 
执行 。 然 而 ， 在 本 次 查询 中 ， 没 有 写 入 请 求 ， 因 为 得 询 没 有 和 暂 俘 





e "millis" : 91 
这 个 数字 越 小 ， 说 明 查 询 效 
谈 越 高 。 


e "indexBounds" : {.. 
这 个 学 段 描述 了 索引 的 使 用 情况 ， 给 出 了 索引 的 过 历 范 围 。 由 于 碍 
询 中 的 第 一 个 语句 是 精确 匹配 ， 因此 索引 只 只 需要 查找 42 这 个 值 就 可 
以 了 。 本 次 查询 没有 指定 第 二 个 索引 键 ， 因 此 这 个 索引 键 上 没有 限 
制 ， 数 据 库 会 在 "age" 为 42 的 条 目 中 将 用 户 名 介 于 负 无 穷 
("$minElement"” : 1) 和 正 无 穷 tek! : 1) 的 条 目 都 找 
出 来 


再 来 看 一 个 稍微 复杂 点 的 例子 : 假如 有 一 个 {"user name" : 1， "age" 
1} 上 的 索引 和 一 了 {"age" : 1, "UsSername" : 1} 上 的 索引 。 同时 得 
询 "username" 和 "age" 时 ， 会 发 生 什么 情况 ? 呢 ， 这 取决 于 具体 的 查询 : 


> db.c.find({age : {$gt : 10}, username : "sally"}).explain() 
{ 











"cursor" :; "BtreeCursor username 1 age 1", 
"indexBounds" : [ 
[ 
{ 
"username" : "sally", 
"age" : 10 
}, 
{ 
"username" : "sally", 
"age" :; 1.7976931348623157e+308 
} 
] 
"nscanned" : 13 
"nscannedobjects" £3) 
D3) 
"millis" :; 5 


由 于 在 要 在 "username" 上 执行 精确 匹配 ， 在 "age" 上 进行 范围 查询 ， 
此 ， 数 据 库 选 择 使 用 {"username" : 1， "age" : 了 革 索 引 ， 这 与 查询 语 
句 的 顺序 相反 。 另 一 方面 来 次 ， 如 果 需 要 对 "age" 精 确 匹 配 而 

对 "username" 进 行 范 围 查询 ，MongoDB 束 会 使 用 男 一 个 索引 : 


> db.c.find({"age" : 14, "username" : /.*/}).explain() 


"cursor"”: "BtreeCursor age 1 username 1 multi", 
"indexBounds" : [ 


"age" :; 14, 
"Username™ :; "" 
}, 
{ 
"age" : 14, 
"Username" : { 
} 
], 
[ 
{ 
"age" : 14, 
"username" : /.*/ 
}, 
{ 
"age" : 14, 
"username" : /.*/ 
} 
] 
rT 
"nscanned" : 2, 
"nscannedOobjects" : 2, 
1 让 于 时 2 
"millis" :; 2 


如 果 发 现 MongoDB 使 用 的 索引 与 自己 希望 它 使 用 的 索引 不 一 致 ， 可 以 
使 用 hit() 强 制 MongoDB 使 用 特定 的 索引 。 例 如 ， 如 果 希 望 MongoDB 在 
上 个 例子 的 查询 中 使 用 {"username" : 1， "age" : 了 甘 索 引 ， 可 以 这 么 
做 : 


> db.c.find({"age" : 14, "username" : /.*/}).hint({"username" :; 1, "age" :; 1}) 


如 果 查 询 没 有 使 用 你 希望 它 使 用 的 索引 ， 于 是 你 使 用 hint 强 制 MongoDB 
使 用 某 个 索引 ， 那 么 应 该 在 应 用 程序 部 署 之 前 在 所 指定 的 索引 上 执 

行 explain( )。 如 果 强 制 MongoDB 在 某 个 查询 上 使 用 索引 ， 而 这 个 查询 
这 样 会 导致 查询 效率 降低 ， 还 不 如 不 使 用 索 
引 来 得 快 。 


查询 优化 器 
MongoDB 的 查询 优化 器 与 其 他 数据 库 稍 有 不 同 。 基 本 来 说 ， 如 果 一 个 


索引 能 够 精确 匹配 一 个 查询 〈 要 查询 "x"， 刚 好 在 "x" 上 有 一 个 索引 ) ， 
那么 查询 优化 器 就 会 使 用 这 个 索引 。 不 然 的 话 ， 可 能 会 有 几 个 索引 都 适 








合 你 的 查询 。MongoDB 会 从 这 些 可 能 的 索引 子 集中 为 每 次 查询 计划 选 
择 一 个 ， 这 些 碍 询 计 划 是 并 行 执 行 的 。 最 早 返 回 100 个 结果 的 就 是 胜 
者 ， 其 他 的 查询 计划 就 会 被 中 止 。 


这 个 查询 计划 会 被 缓存 ， 这 个 查询 接 下 来 部 会 使 用 它 ， 直 到 集合 数据 友 
生 了 比较 大 的 变动 。 如 果 在 最 初 的 计划 评估 之 后 集合 发 生 了 比较 大 的 数 
据 变 动 ， 碍 询 优化 器 就 会 重新 挑选 可 行 的 查询 计划 。 建 立 索 引 时 ， 或 者 
古 每 执行 1000 次 碍 询 之 后 ， 碍 询 优 化 器 都 会 重新 评估 得 询 计划 。 


explain() 输 出 信息 里 的 "allPlans" 字 段 显 示 了 本 次 查询 尝试 过 的 每 个 查 
询 计划 。 


5.3 ” 何 时 不 应 该 使 用 索引 


提取 较 小 的 子 数据 集 时 ， 索 引 非 常 高 效 。 也 有 一 些 人 查询 不 使 用 索引 会 更 
快 。 结 末 集 在 原 集合 中 所 占 的 比例 越 大 ， 索 引 的 速度 束 越 慢 ， 因 为 使 用 
索引 需要 进行 两 次 得 找 : 一 次 是 查找 索引 条 目 ， 一 次 是 根据 索引 指针 去 
查找 相应 的 文档 。 而 全 表 扫 描 只 需要 进行 一 次 查找 : 查找 文档 。 在 最 坏 
的 情况 下 《返回 集合 内 的 所 有 文档 ) ， 使 用 索引 进行 的 查找 次 数 会 是 全 
表 扫 描 的 两 倍 ， 效 率 会 明显 比 全 表 扫 描 低 很 多 。 


可 惜 ， 并 没有 一 个 严格 的 规则 可 以 告诉 我 们 ， 如 何 根据 数据 大 小 、 索 引 
大 小 、 文 档 大 小 以 及 结果 集 的 平均 大 小 来 判断 什么 时 候 索 引 很 有 用 ， 什 
么 时 候 索引 会 降低 查询 速度 〈 如 表 5-1 所 示 ) 。 一 般 来 说 ， 如 果 碍 询 需 
要 返回 集合 内 30% 的 文档 《或 者 更 多 ) ， 那 就 应 该 对 索引 和 全 表 扫 描 的 
速度 进行 比较 。 然 而 ， 这 个 数字 可 能 会 在 2% 一 60% 之 间 变 动 。 


表 5-1 影响 索引 效率 的 属性 


索引 通常 适用 的 情况 “全 表 扫 描 通 常 适用 的 情况 
































集合 较 大 集合 较 小 
文档 较 大 文档 较 小 
选择 性 查询 非 选择 性 查询 


假如 我 们 有 一 个 收集 统计 信息 的 分 析 系 统 。 应 用 程序 要 根据 给 定 账 户 去 
系统 中 但 询 所 有 文档 ， 根 据 从 初始 一 直到 一 小 时 之 前 的 数据 生成 图 表 : 


> db.entries.find({"created at" : {"$]t" : hourAgo}}) 


我 们 在 "created_at" 上 创建 索引 以 提高 查询 速度 。 


最 初 运行 时 ， 结 果 集 非常 小 ， 可 以 立即 返回 。 几 个 星期 过 去 以 后 ， 数 据 
开始 多 起 来 了 ， 一 个 月 之 后 ， 这 个 查询 耗 费 的 时 间 越 来 越 长 。 


对 于 大 部 分 应 用 程序 来 说 ， 这 很 可 能 就 是 那个 “错误 的 ”查询 : 真 的 需要 

在 查询 中 返回 数据 集中 的 大 部 分 内 容 吗 ? 大 部 分 应 用 程序 〈 尤 其 是 拥有 

非常 大 的 数据 集 的 应 用 程序 ) 都 不 需要 。 然 而 ， 也 有 一 些 合理 的 情况 ， 

可 能 需要 得 到 大 部 分 或 者 全 部 的 数据 : 也 许 需要 将 这 些 数据 导出 到 报表 

和 
和 内 容 。 


可 以 用 {"$natural" : 1} 强 制 数据 库 做 全 表 扫 描 。6.1 节 会 介绍 
$natural， 它 可 以 指定 文档 按照 磁盘 上 的 顺序 排列 。 特 别 地 ，$natural 
可 以 强制 MongoDB 做 全 表 扫 持 : 


> db.entries.find({"created at"”: {"$]lt" : hourAgo}}).hint({"$natural" : 1}) 














使 用 "$natural" 排 序 有 一 个 副作用 : 返回 的 结果 是 按照 磁盘 上 的 顺序 排 
列 的 。 对 于 一 个 活跃 的 集合 来 说 ， 这 是 没有 意义 的 : 随 着 文档 体积 的 增 
加 或 者 缩小 ， 文 档 会 在 磁盘 上 进行 移动 ， 新 的 文档 会 被 写 入 到 这 些 文档 
留 下 的 空白 位 置 。 但 是 ， 对 于 只 需要 进行 插入 的 工作 来 说 ， 如 果 要 得 到 
最 新 的 (或 者 最 早 的 ) 文档 ， 使 用 $natural 束 非常 有 用 了 。 


5.4 ”索引 类 型 

创建 索引 时 可 以 指定 一 些 选 项 ， 使 用 不 同 选项 建立 的 索引 会 有 不 同 的 行 
为 。 接 下 来 的 小 节 会 介绍 常见 的 索引 变种 ， 更 高 级 的 索引 类 型 和 特殊 选 
项 会 在 下 一 章 介 绍 。 

5.4.1 ”唯一 索引 


唯一 索引 可 以 确保 集合 的 每 一 个 文档 的 指定 键 都 有 唯一 值 。 例 如 ， 如 果 
想 保证 同 不 文档 的 "username" 键 拥有 不 同 的 值 ， 创 建 一 个 唯一 索引 融 好 
了 : 














> db.users.ensureIndex({"username" : 1}, {"uvnique" :; true}) 


如 果 试 图 向 上 面 的 集合 中 插入 如 下 文档 : 


> db.users.insert({username: "bob"}) 
> db.users.insert({username: "bob"}) 
E11000 duplicate key error index: test.users.$username 1 dup key: { : "bob" } 





如 末 检 查 这 个 集合 ， 会 发 现 只 有 第 一 个 "bob" 被 保存 进来 了 。 发 现 有 重 
复 的 键 时 抛 出 异种 会 影响 效率 ， 所 以 可 以 使 用 唯一 索引 来 应 对 偶尔 可 能 
会 出 现 的 键 重 复 问 题 ， 而 不 是 在 运行 时 对 重复 的 键 进 行 过 滤 。 


有 一 个 唯一 索引 可 能 你 已 经 比较 熟悉 了 了， 就 是 " id" 索引， 这 个 索引 会 
在 创建 集合 时 目 动 创建 。 这 束 是 一 个 正 币 的 唯一 索引 《但 它 不 能 被 删 
除 ， 而 其 他 唯一 索引 是 可 以 删除 的 ) 。 


-人 多， 索引 会 将 其 作为 nul1 存 


储 。 所 以 ， 如 宁 对 菏 个 键 建立 了 唯一 索引 ， 但 插入 了 多 个 缺少 该 索 
引 键 的 文 要 ， 由 于 集合 已 经 存在 一 个 该 索引 键 的 值 为 nul1 的 文档 而 
导致 插入 失败 。5.4.2 节 会 详细 介绍 相关 内 容 。 


有 些 情况 下 ， 一 个 值 可 能 无 法 被 索引 。 有 索引 储 桶 〈index bucket) 的 大 小 
是 有 限制 的 ， 如 果 某 个 索引 条 目 超 出 了 它 的 限制 ， 那 么 这 个 条 目 束 不 会 
包含 在 索引 里 。 这 样 会 造成 一 些 困 惑 ， 因 为 使 用 这 之 个 索引 进行 查询 时 会 
有 一 个 文档 凭空 消失 不 抑 了 。 上 所 有 的 字段 都 必须 小 于 1024 字 节 ， 才 能 包 
舍 到 索引 里 。 如 果 一 个 文档 的 字段 由 于 太 大 不 能 包含 在 索引 里 ， 
MongoDB 不 会 返回 任何 错误 或 者 警告 。 也 束 是 说 ， 超 出 8 KB 大 小 的 键 
不 会 受到 唯一 索引 的 约束 : 可 以 插入 多 个 同样 的 8 KB 长 的 字符 串 。 


1. 复合 唯一 索引 


也 可 以 创建 复合 的 唯一 索引 。 创 建 复合 唯一 索引 时 ， 单 个 键 的 值 可 以 相 
同 ， 但 所 有 键 的 组 合 值 必须 是 唯一 的 。 


例如 ， 如 果 有 一 个 fusername" : 1，"age" : 1} 上 的 唯一 索引 ， 下 面 的 
插入 是 合法 的 : 


> db.users.insert({"username" :; "bob"}) 
> db.users.insert({"username" : "bob", "age" : 23}) 
> db.users.insert({"username" : "fred", "age" : 23}) 
































然而 ， 如 采 试 图 再 次 插入 这 三 个 文档 中 的 任意 一 个 ， 都 会 导致 键 重复 异 
常 。 


GirdFS 是 MongoDB 中 存储 大 文件 的 标准 方式 〈( 详 见 6.5 市 ) ， 其 中 就 用 
到 了 复合 唯一 索引 。 存 储 文件 内 容 的 集合 有 一 个 {"files_id" : 1,"n" 
人 索引 ， 因 此 文档 的 茶 一 部 分 看 起 来 可 能 会 是 下 面 这 个 
单子 ， 





{"files_id" : ObjectId("4b23c3ca7525f35f94b60a2d"), "n" : 1} 
{"files_id" : ObjectId("4b23c3ca7525f35f94b60a2d"), "n" : 2} 
{"files_id" : ObjectId("4b23c3ca7525f35f94b60a2d"), "n" : 3} 
{"files_id" : ObjectId("4b23c3ca7525f35f94b60a2d"), "n" ; 4} 


注意 ， 所 有 "files_id" 的 值 都 相同 ， 但 是 "n" 的 值 不 同 。 
2. 去 除 重 复 


在 已 有 的 集合 上 创建 唯一 索引 时 可 能 会 失败 ， 因 为 集合 中 可 能 已 经 存在 
重复 值 了 : 


> db.users.ensureIndex({"age" : 1}, {"unique" : true}) 
E11000 duplicate key error index: test.users.$age 1 dup key: { : 12 } 








通常 需要 先 对 已 有 的 数据 进行 处 理 ( 可 以 使 用 聚合 框架 ) ， 找 出 重复 的 
数据 ， 想 办 法 处 理 。 


在 极 少数 情况 下 ， 可 能 希望 直接 删除 午 复 的 值 。 创 建 罕 引 时 使 
用 "droppups" 选 项 ， 如 果 遇 到 重复 的 值 ， 第 一 个 会 被 保留 ， 之 后 的 重复 
文档 都 会 被 删除 。 


> db.people.ensureIndex({"username" : 1}, {"unique" : true, "dropDups" : true}) 





"dropDups" 会 强制 性 建立 唯一 索引 ， 但 是 这 个 方式 太 粗 暴 了 : 你 无 法 控 
制 哪些 文档 被 保留 哪些 文档 被 删除 〈 如 果 有 文档 被 删除 的 话 ， 
MongoDB 也 不 会 给 出 提示 说 哪些 文档 被 删除 了 ) 。 对 于 比较 重要 的 数 
据 ， 干 万 不 要 使 用 "dropDpups"。 


5.4.2” 稀 玻 索 引 





前 面 的 小 节 已 经 讲 过 ， 唯 一 索引 会 把 nul1l 看 做 值 ， 所 以 无 法 将 多 个 缺少 
唯一 索引 中 的 键 的 文档 插入 到 集合 中 。 人 然而， 在 有 些 情况 下 ， 你 可 能 项 
望 唯一 索引 只 对 包含 相应 键 的 文档 生效 。 如 果 有 一 个 可 能 存在 也 可 能 不 
存在 的 字段 ， 但 是 当 它 存在 时 ， 它 必须 是 唯一 的 ， 这 时 就 可 以 将 unique 
和 sparse 选 项 组 合 在 一 起 使 用 。 





人“ MongoDB 中 的 稀疏 索引 (sparse ” index) 与 关系 型 数据 
库 中 的 稀 玖 索引 是 完全 不 同 的 概念 。 基 本 上 来 说，MongoDB 中 的 
稀 玻 索引 只 是 不 需要 将 每 个 文档 都 作为 索引 条 目 


使 用 sparse 选 项 就 可 以 创建 稀 玻 索引 。 例 如 ， 如 果 有 一 个 可 选 的 email 地 
址 字段 ， 但 是 ， 如 果 提 供 了 这 个 字段 ， 那 么 它 的 值 必 须 是 唯一 的 : 


> db.ensureIndex({"email" :; 1}, {"unique" : true, "sparse" : true}) 





稀疏 索引 不 必 是 唯一 的 。 只 要 去 掉 unique 选 项 ， 就 可 以 创建 一 个 非 唯 一 
的 黎 琉 索引 。 


根据 是 否 使 用 稳 玻 索引 ， 同 一 个 查询 的 返回 结果 可 能 会 不 同 。 假 如 有 这 
样 一 个 集合 ， 其 中 的 大 部 分 文档 都 有 一 个 "x" 字 段 ， 但 是 有 些 没有 : 





> dp. ne en 

{ "i 9 } 

{ "_i a 4 1} 
ht HE EH 
{ "_i HC se 文 3 } 


当 在 "x" 上 执行 查询 时 ， 它 会 返回 相 匹 配 的 文档 : 


db ， 人 x" : {"$ne" : 2}}) 
0 } 


> 

太 于 

et A I a 
et RS 


如 果 在 "x" 上 创建 一 个 稀 疏 索引 ，"_id" 为 0 的 文档 束 不 会 包含 在 索引 
中 。 如 果 再 次 在 "x" 上 查询 ，MongoDB 束 会 使 用 这 个 稀 疏 索引 ，{"_i 


: 9} 的 这 个 文档 吏 不 会 被 返回 了 : 


> db.foo.find({"x" : { 
Ed 
{ ,Tid § 3, xy } 


"$ne" 2}}) 


0 要 得 到 那些 不 包含 "x" 字 有 段 的 文档 ， 可 以 使 用 hint() 强 制 进行 全 
导 摘 


5.5 索引 管理 


如 前 面 的 小 节 所 述 ， 可 以 使 用 ensuerIndex 函 数 创 建新 的 索引 。 对 于 一 
> 次 。 如 果 重 复 创 建 相 同 的 索引 ， 是 没有 
王 何 作用 


所 有 的 数据 库 索 引信 息 都 存储 在 system. 了 这 是 一 个 保留 
集合 ， 不 能 在 其 中 插入 或 者 删除 文档 。 只 能 通过 ensureIndex 或 
者 dropIndexes 对 其 进行 操作 。 


创建 一 个 索引 之 后 ， 就 可 以 在 system.indexes 中 看 到 它 的 元 信息 。 可 以 
执行 db .CollectionName.getIindexes( ) 来 查看 给 定 集合 上 的 所 有 索引 信 
忆 : 














> db.foo.getIindexes() 
[ 


{ 
yy : 1, 
"key" ' { 
中 
}, 
"ns" :; "test.foo", 
"name" : "_ id_" 
}, 
{ 
VS 
key" : { 
"y" 1 
}, 
"ns" : "test.foo 
"name" 'y_1 
}, 
{ 
V 二 
key" : { 
Tx" 
"y" 1 
} 


ns" : "test.foo"， 


"name" : "x_1 1 


这 里 面 最 重要 的 字段 是 "key" 和 "name"。 这 里 的 键 可 以 用 

在 hint、max、min 以 及 其 他 所 有 需要 指定 索引 的 地 方 。 在 这 里 ， 索 引 的 
顺序 很 重要 : 人 1} 上 的 索引 与 {"y" ee 1} 上 的 
索引 不 同 。 对 于 很 多 的 索引 操作 (比如 dropIndex) ， 这 里 的 索引 名 称 

都 可 以 被 当 作 标识 符 使 用 。 但 是 这 里 不 会 指明 索引 是 否 是 多 键 索 引 。 


"v" 字 有 段 只 在 内 部 使 用 ， 用 于 标识 索引 版 本 。 如 果 你 的 索引 不 包含 "v" : 
1 这 样 的 字段 ， 资 明 你 的 索引 是 以 一 种 效率 比较 低 的 旧 方式 存储 的 。 将 
MongoDB 升 级 到 至 少 2.0 版 本 ， 删 除 并 重建 这 些 索 引 ， 就 可 以 把 索引 的 
存储 方式 升级 到 新 的 格式 了 。 


5.5.1 标识 索引 


集合 中 的 每 一 个 索引 都 有 一 个 名 称 ， 用 于 唯一 标识 这 个 索引 ， 也 可 以 用 
于 服务 器 端 来 删除 或 者 操作 索引 。 去 引 名 称 的 默认 形式 是 key 
namel1_diri_ keyname2 dir2_..._keynameN_dirN, 其 中 keynamex 是 索引 的 
键 ，dirx 是 索引 的 方向 (1 或 者 -1) 。 如 果 索 引 中 包含 两 个 以 上 的 键 ， 
和 好 在 可 以 在 ensureIndex 中 指定 索引 
J 名称: 


> db.foo.ensureIndex({"a” : 1，"b"” :; 1, "cv :1 ..., "Zz" : 1}, 
.. {"name" : "alphabet"}) 


























索引 名 称 的 长 度 是 有 限制 的 ， 所 以 新 建 复杂 索引 时 可 能 需要 目 定 义 索引 
名 称 。 调 用 getLastError 就 可 以 知道 索引 是 否 成 功 创建 ， 或 者 失败 的 原 
因 。 


5.5.2 ”修改 索引 


随 着 应 用 不 断 增 长 变化 ， 你 会 发 现 数 据 或 者 查询 已 经 发 生 了 改变 ， 原 来 
i 这 时 可 以 使 用 dropIndex 命 令 删 除 不 再 需要 的 
索引 : 


> db.people.dropIndex("x_1 y 1") 
{ "nIndexeswWas"”: 3, "ok" ; 1 } 


用 索引 描述 信息 里 "name" 字 段 的 值 来 指定 需要 删除 的 索引 。 


新 建 索 引 是 一 件 既 费 时 又 滔 费 资源 的 事情 。 默 认 情 况 下 ，MongoDB 会 

尽 可 能 快 地 创建 索引 ， 阻 塞 所 有 对 数据 库 的 读 请 求 和 写 请 求 ， 一 直到 索 
引 创建 完成 。 如 末 希 望 数 据 库 在 创建 索引 的 同时 仍然 能 够 处 理 读 写 请 

求 ， 可 以 在 创建 索引 时 指定 background 选 项 。 这 样 在 创建 索引 时 ， 如 果 
有 新 的 数据 库 请 求 需要 处 理 ， 创 建 索 引 的 过 程 就 会 暂停 一 下 ， 但 是 仍然 
会 对 应 用 程序 性 能 有 比较 大 的 影响 (12.4.8 节 会 详细 介绍 ) 。 后 台 创 建 
索引 比 前 合 创建 索引 慢 得 多 。 


在 已 有 的 文档 上 创建 索引 会 比 新 创建 索引 再 插入 文档 快 一 扣 。 
第 18 章 会 更 详细 地 介绍 实际 创建 索引 。 





第 6 章 ”特殊 的 索引 和 集合 


本 章 介 绍 MongoDB 中 一 些 特殊 的 集合 和 索引 类 型 ， 包 括 : 


。 用 于 类 队列 数据 的 固定 集合 (capped collection ) ; 
。 用 于 绥 存 的 TIL 索 引 ; 

。 用 于 简单 字符 串 搜 索 的 全 文本 索引 ; 

。 用 于 二 维 平 面 和 球体 空间 的 地 理 空间 索引 ; 

。 用 于 存储 大 文件 的 GridFS。 


6.1 固定 集合 


MongoDB 中 的 “普通 ”集合 是 动态 创建 的 ， 而 且 可 以 自动 增长 以 容纳 更 多 
的 数据 。MongoDB 中 还 有 为 一 种 不 同类 型 的 集合 ， 叫 做 固定 集合 ， 固 
定 集 合 需 要 事先 创建 好 ， 而 且 它 的 大 小 是 固定 的 “如 图 6-1 所 示 〉。 说 
到 固定 大 小 的 集合 ， 有 一 个 很 有 和 趣 的 问题 ， 同 一 个 已 经 满 了 的 固定 集合 
中 插入 数据 会 怎么 样 ? 答案 是 ， 固 定 集合 的 行为 类 似 于 循环 队列 。 如 果 
己 经 没有 空间 了， 最 老 的 文档 会 被 删除 以 释放 空间 ， 新 插入 的 文档 会 占 
据 这 块 空间 (如 图 6-2 所 示 〉。 也 残 是 说 ， 妆 固定 集合 被 占 满 时 ， 如 果 
再 插入 新 文档 ， 固 定 集 合 会 日 动 将 最 老 的 文档 从 集合 中 删除 。 




















图 6-1 新 文档 被 插入 到 队列 末尾 





图 6-2 如果 队列 已 经 被 占 满 ， 那 么 最 老 的 文档 会 被 之 后 插入 的 新 文档 
复 雷 

定 集合 的 访问 模式 与 MongoDB 中 的 大 部 分 集合 不 同 : 数据 被 顺序 写 
入 厂 盘 上 的 固定 空间 。 因 此 它们 在 碟 式 磁盘 〈spinning disk) 上 的 写 入 
速度 非常 快 ， 尤 其 是 集合 拥有 专用 磁盘 时 〈 这 样 就 不 会 因为 其 他 集合 的 
一 些 随机 性 的 写 操作 而 “中 断 ”〉。 











NR 
“固定 集合 不 能 被 分 片 。 


固定 集合 可 以 用 于 记录 日 志 ， 尽 管 它 们 不 够 灵活 。 虽 然 可 以 在 创建 时 指 
定 集合 大 小 ， 但 无 法 控制 什么 时 候 数 据 会 被 禾 兰 。 


6.1.1 创建 固定 集合 


不 同 于 普通 集合 ， 固 定 集 合 必须 在 使 用 之 前 先 显 式 创 建 。 可 以 使 
用 create 命 令 创 建 固 定 集 合 。 在 shell 中 ， 可 以 使 用 createcoLlection 国 
数 : 


> db.createCollection("my_collection", {"capped" : true, "size" : 100000}); 
{ "ok" : true } 


上 面 的 命令 创建 了 一 个 名 为 my_collection 大 小 为 100”000 字 节 的 固定 集 
人 
Do 
除了 大 小 ，createcollection 还 能 够 指定 固定 集合 中 文档 的 数量 : 
> db.createCollection("my_collection2", 


... {"capped" : true, "size" : 100000, "max" :; 100}); 
{ "ok" : true } 





可 以 使 用 这 种 方式 来 保存 最 新 的 10 则 新 闻 ， 或 者 是 将 每 个 用 户 的 文档 数 
量 限制 为 1000。 


固定 集合 创建 之 后 ， 就 不 能 改变 了 《如果 需要 修改 固定 集合 的 属性 ， 只 
能 将 它 删 除 之 后 再 重建 ) 。 因 此 ， 在 创建 大 的 固定 集合 之 前 应 该 仔细 起 
清楚 它 的 大 小 。 








为 固定 集合 指定 文档 数量 限制 时 ， 必 须 同时 指定 固定 集 
合 的 大 小 。 不 管 先 达到 哪 一 个 限制 ， 之 后 插入 的 新 文档 就 会 把 最 老 
的 文档 挤 出 集合 : 固定 集合 的 文档 数量 不 能 超过 文档 数量 限制 ， 固 
定 集合 的 大 小 也 不 能 超过 大 小 限制 。 


创建 国定 集合 时 还 有 另 一 个 选项 ， 可 以 将 已 有 的 某 个 常规 集合 转换 为 固 
定 集 合 ， 可 以 使 用 convertTocapped 命 令 实 现 。 下 面 的 例子 将 test 集 合 转 


换 为 一 个 大 小 为 10 000 字 节 的 固定 集合 : 


> db.runCommand({"convertToCapped" : "test", "size" :; 10000}); 
{ "ok" 


无 法 将 固定 集合 转换 为 非 固 定 集合 〈 只 能 将 其 删除 ) 。 
6.1.2 ”自然 排序 
对 固定 集合 可 以 进行 一 种 特殊 的 排序 ， 称 为 自然 排序 (natural sort) 。 


0 
示 ) 。 











图 6-3 ”使 用 {"$natural" : 1} 进 行 排序 


对 大 多 数 集合 来 说 ， 上 自然 排序 的 意义 不 大 ， 因 为 文档 的 位 置 经 常 变动 。 
但 是 ， 固 定 集合 中 的 文档 是 按照 文档 被 插入 的 顺序 保存 的 ， 目 然 顺序 惑 
是 文档 的 插入 顺序 。 因 此 ， 目 然 排 序 得 到 的 文档 是 从 旧 到 新 排列 的 。 当 








然 也 可 以 按照 从 新 到 有 旧 的 顺序 排列 “如 图 6-4 所 示 ) 。 


> db.my_collection.find().sort({"$natural" : -1}) 





图 6-4 使 用 {"$natural" : -1} 进 行 排 序 
6.1.3 ”循环 游标 


循环 游标 tailable cursor) 是 一 种 特殊 的 游标 ， 当 循环 游标 的 结 末 集 科 
取 光 后 ， 游 标 不 会 被 关闭 。 循 环 游标 的 灵感 来 自 tail ”-f 命 令 ( 循 环 游 
标 跟 这 个 命令 有 点 儿 相 似 ) ， 会 尽 可 能 和 久 地 持续 提取 输出 结果 。 由 于 循 
环 游标 在 结 末 集 取 光 之 后 不 会 被 关闭， 因此 ， 当 有 新 文档 插入 到 集合 中 
时 ， 循 环 游标 会 继续 取 到 结果 。 由 于 普通 集合 并 不 维护 文档 的 插入 顺 
序 ， 所 以 循环 游标 只 能 用 在 固定 集合 上 。 


循环 游标 通常 用 于 当 文 档 被 插入 到 “工作 队列 ” (其实 就 是 个 固定 集合 ) 
时 对 新 插入 的 文档 进行 处 理 。 如 果 超 过 10 分 钟 没 有 新 的 结果 ， 循 环 游标 











就 会 被 释放 ， 因 此 ， 当 游标 被 关 闭 时 自动 重新 执行 查询 是 非常 重要 的 。 
ee 于 PHP 中 使 用 循环 游标 的 例子 (不 能 在 mongo shell 中 使 用 循 
环 游 标 ) : 


$cursor = $collection->find()->talilable()， 


while (true) { 
if (!$cursor->hasNext()) { 
if ($cursor->dead()) { 
break; 


} 
sleep(1); 


else { 
while ($cursor->hasNext()) { 
do_stuff($cursor->getNext()); 
} 
} 
} 


这 个 游标 会 不 断 对 查询 结果 进行 处 理 ， 或 者 是 等 待 新 的 查询 结果 ， 直 到 
游标 被 关闭 〈 超 过 10 分 钟 没有 新 的 结果 或 者 人 为 中 止 碍 询 操作 ) 。 


6.1.4 没有 _id 索 引 的 集合 


默认 情况 下 ， 每 个 集合 都 有 一 个 "_id" 索 引 。 但 是 ， 如 果 在 调 

用 createcollection 创 建 集合 时 指定 autoIndexId 选 项 为 false， 创建 集 
合 时 惑 不 会 自动 在 "_id" 上 创建 驼 引 。 实 践 中 不 建议 这 么 使 用 ， 但 是 对 
于 只 有 插入 操作 的 集合 来 说 ， 这 确实 可 以 带 来 速度 的 稍 许 提升 。 


-3,,,,, 一 个 没有 "id" 索 引 的 集合 ， 那 就 永远 都 不 


能 复制 它 所 在 的 mongod 了 。 复 制 操作 要 求 每 个 集合 上 都 要 
有 "_id" 索 引 《〈 对 于 复制 操作 ， 能 够 唯一 标识 集合 中 的 每 一 个 文档 
征 非 常 重要 的 ) 。 


在 2.2 版 本 之 前 ， 固 定 集合 默认 是 没有 "_id" 索 引 的 ， 除 非 显 式 地 

将 autoIndexId 置 为 true。 如 果 正 在 使 用 旧版 的 固定 集合 ， 要 确保 你 的 应 
用 程序 能 够 填充 "_id" 字 段 〈 大 多 数 驱 动 程 序 会 自动 填充 "_id" 字 段 ) ， 
然后 使 用 ensureIndex 命 令 创 建 "_ id" 索 引 。 


记 住 ，"”_id" 索 引 必须 是 唯一 索引 。 不 同 于 其 他 索引 ，" id" 索引 一 经 创 




















建 就 无 法 删除 了 ， 因 此 在 生产 环境 中 创建 索引 之 前 先 目 己 实践 一 下 是 非 
常 重要 的 。 所 以 创建 "_id" 索 引 必 须 一 次 成 功 ! 如 果 创 建 的 "_ig" 索 引 不 
合 规范 ， 就 只 能 删除 集合 再 重建 了 。 


6.2 TIL 索 引 


上 一 节 已 经 讲 过 ， 对 于 固定 集合 中 的 内 容 何 时 被 覆盖 ， 你 只 拥有 非常 有 

限 的 控制 权限 。 如 果 需 要 更 加 灵活 的 老化 移出 系统 (age-out system ) ， 

可 以 使 用 TTL 有 索引 (time-to-live index， 上 共有 生命 周期 的 索引 》， 这 种 索 

引 人 允许 为 每 一 个 文档 设置 一 个 超时 时 间 。 一 不 文档 到 达 预 设置 的 老化 程 

这 种 类 型 的 索引 对 于 缓存 问题 〈 比 如 会 话 的 保存 ) 
常 a 





在 ensureIndex 中 指定 expireAftersecs 选 项 就 可 以 创建 一 个 TTL 索引 : 


> // 超时 时 间 为 24 小 时 
> db.foo.ensureIndex({"lastUpdated" : 1}, {"expireAfterSecs" : 60*60*24}) 


这 样 就 在 "Lastupdated" 字 段 上 建立 了 一 个 TIL 索 引 。 如 果 一 个 文档 
的 "lastupdated" 字 上 段 存在 并 且 它 的 值 是 日 期 类 型 ， 当 服务 嚣 时间 比 文 
档 的 "Lastupdated" 字 段 的 时 间 晚 expireAfterSsecs 秒 时 ， 文 档 就 会 被 删 
除 。 


为 了 防止 活跃 的 会 话 被 删除 ， 可 以 在 会 话 上 有 活动 发 生 时 
将 "lastupdated" 字 段 的 值 更 新 为 当前 时 间 。 只 要 "Lastupdated" 的 时 间 
距离 当前 时 间 达 到 24 小 时 ， 相 应 的 文档 就 会 被 删除 。 


MongoDB 每 分 钟 对 TIL 索 引进 行 一 次 清理 ， 所 以 不 应 该 依赖 以 秒 为 单位 
的 时 间 保 证 索引 的 存活 状态 。 可 以 使 用 collMod 命 令 修 


改 expireAftersecs 的 值 : 





> db.runCommand({"collMod" : "someapp.cache", "expireAfterSecs" : 3600}) 





在 一 个 给 定 的 集合 上 可 以 有 多 个 TIL 索 引 。TTL 索 引 不 能 是 复合 索引 ， 
但 是 可 以 像 “ 普 通 ” 索 引 一 样 用 来 优化 排序 和 碍 询 。 


6.3 ”全 文本 索引 





MongoDB 有 一 个 特殊 类 型 的 索引 用 于 在 文档 中 搜索 文本 。 前 面 几 章 都 
是 使 用 精确 匹配 和 正则 表达 式 来 查询 字符 串 ， 但 是 这 些 技术 有 一 些 限 
制 。 使 用 正则 表达 式 搜索 大 块 文本 的 速度 非常 慢 ， 而 且 无 法 处 理 语言 的 
理解 问题 〈 比 如 entry 与 entries 应 该 算是 匹配 的 ) 。 使 用 全 文本 索引 可 以 
非常 快 地 进行 文本 搜索 ， 就 如 同 内 置 了 多 种 语言 分 词 机 制 的 文 持 一 样 。 


创建 任何 一 种 索引 的 开销 都 比较 大 ， 而 创建 全 文本 索引 的 成 本 更 高 。 在 
一 个 操作 频 系 的 集合 上 创建 全 文本 索引 可 能 会 导致 MongoDB 过 载 ， 所 
以 应 该 是 离线 状态 下 创建 全 文本 索引 ， 或 者 是 在 对 性 能 没 要 求 时 。 创 建 
全 文本 索引 时 要 特别 小 心 谨 愤 ， 内 存 可 能 会 不 够 用 (除非 你 有 SSD)。 
第 18 草 会 介绍 如 何在 创建 索引 时 将 对 应 用 程序 的 影响 降 至 最 低 。 


全 文本 索引 也 会 导致 比 “普通 ”索引 更 严重 的 性 能 问题 ， 因 为 所 有 了 字符 串 
都 需要 被 分 解 、 分 词 ， 并 且 保 存 到 一 些 地 方 。 因 此 ， 可 能 会 发 现 拥有 全 
文本 索引 的 集合 的 写 入 性 能 比 其 他 集合 要 差 。 全 文本 索引 也 会 降低 分 片 
0 将 数据 迁移 到 其 他 分 请 时 ， 所 有 文本 都 需要 重新 进 
行 索引 。 


写作 本 书 时 ， 全 文本 索引 仍然 只 是 一 个 处 于 “试验 阶段 ”的 功能 ， 所 以 需 
要 专门 局 用 这 个 功能 才能 进行 使 用 。 忆 动 MongoDB 时 指定 -- 


























setParameter textSearch Enabled=true 选 项 ， 或 者 在 运行 时 执 
行 setParameter 命 令 ， 都 可 以 局 用 全 文本 索引 : 

> db.adminCommand({"setParameter" : 1, "textSearchEnabled" : true}) 
假如 我 们 使 用 这 个 非 官方 的 Hacker News JSON 


API (http://api.ihackernews.com) 将 最 近 的 一 些 文章 加 载 到 了 MongoDB 
中 。 





为 了 进行 文本 搜索 ， 首 先 需要 创建 一 个 "text" 索 引 : 


> db.hn.ensureIndex({"title" : "text"}) 


现在 ， 必 须 通过 text 命 令 才能 使 用 这 个 索引 《写作 本 书 时 ， 全 文本 索引 
还 不 能 用 在 “普通 ”查询 中 ) : 


test> db.runCcommand({"text" : "hn", "search" : "ask hn"}) 


i 





"queryDebugString"”: "ask|hn||||||", 


"language" : "english", 
"results" : [ 
{ 
"score" : 2.25, 
"obj" ' { 
"_id" : ObjectIid("50dcab296803fa7e4f000011")， 
"title" : "Ask HN: Most valuable skills you have?", 
"Url" : "/comments/4974230", 
"id" : 4974230, 
"commentCount" : 37, 
"points" ; 31, 
"postedAgo" : "2 hours ago", 
"postedBy" : "bavidar" 
} 
}, 
{ 
"Score"”: 0.5625, 
"obj" 9 { 
"_id" : ObjectIid("50dcab296803fa7e4f000001")， 
"title" : "Show HN: How I turned an old book...", 
"url™ : "http://www.howacarworks.com/about", 
"id" : 4974055, 
"commentCount" : 44, 
"points" :; 95, 
"postedAgo" : "2 hours ago", 
"postedBy" : "AlexMuir" 
} 
外 
{ 
"score" : 0.5555555555555556, 
"obj" ' { 
"_id" : ObjectIid("50dcab296803fa7e4f000010")， 
"title" : "Show HN: ShotBlocker - i0S Screenshot detector...", 
"url™" :; "https://github.com/clayallsopp/ShotBlocker", 
"id" : 4973909, 
"commentCount" : 10, 
"points" ; 17, 
"postedAgo" : "3 hours ago", 
"postedBy" : "10char" 
} 
} 
]， 
"stats" : { 
"nscanned" : 4, 
"nscannedOobjects" : 0, 
"nu 3, 
"timeMicros" :; 89 


}, 


"ok”: 1 } 匹配 到 的 文档 是 按照 相关 性 降序 排列 的 : "Ask HN" 位 于 第 一 
位 ， 然 后 是 两 个 部 分 匹配 的 文档 。 每 个 对 象 前 面 的 "score" 字 段 描述 了 
每 个 结果 与 查询 的 匹配 程度 。 


如 你 所 见 ， 这 个 搜索 是 不 区 分 大 小 写 不 的 ， 至 少 对 于 [a-zA-Z] 这 些 字符 
是 这 样 。 全 文本 索引 会 使 用 toLower 将 单词 变 为 小 写 ， 但 这 是 与 本 地 化 


相关 的 ， 所 以 某 些 语言 的 用 户 可 能 会 发 现 MongoDB 会 不 可 预测 性 地 变 
得 区 分 大 小 写 ， 这 取决 于 toLower 在 不 同 字 符 集 上 的 行为 。MongoDB 一 
直 在 努力 提高 对 不 同 字 符 集 的 文 持 。 


全 文本 索引 只 会 对 字符 捉 数 据 进行 索引 :其 他 的 数据 类 型 会 被 忽略 ， 不 
会 包含 在 索引 中 。 一 个 集合 上 最 多 只 能 有 一 个 全 文本 索引 ， 但 是 全 文本 
索引 可 以 包含 多 个 字段 : 


> db.blobs.ensureIndex({"title" : "text", "desc" : "text"，" author"”: "text"}) 














与 “普通 * 的 多 键 索 引 不 同 ， 全 文本 索引 中 的 字段 顺序 不 重要 ， 每 个 字段 
都 被 同等 对 待 。 可 以 为 每 个 字段 指定 不 同 的 权重 来 控制 不 同 字段 的 相对 


重要 性 : 


> db.hn.ensureIndex({"title" : "text", "desc" : "text", "author" : "text"}, 
.. {"weights" : {"title" : 3, "author" : 2}}) 





默认 的 权重 是 1， 权 重 的 范围 可 以 是 1~1 000 000 000。 使 用 上 面 的 代码 
设置 权重 之 后 ，"title" 字 段 成 为 其 中 最 重要 的 字段 ，"author" 其 次 ， 最 
后 是 "desc" (没有 指定 ， 因 此 它 的 权重 是 默认 值 1〉。 


索引 一 经 创建 ， 束 不 能 改变 字段 的 权重 了 除非 删除 索引 再 重建 》， 所 
以 在 生产 环境 中 创建 索引 之 前 应 该 移 在 测试 数据 集 上 实际 操作 一 下 。 
对 于 茶 些 集合 ， 我 们 可 能 并 不 知道 每 个 文档 所 包含 的 字段 。 可 以 使 
用 "$**" 在 文档 的 所 有 字符 串 字 段 上 创建 全 文本 索引 : 这 不 仅 会 对 顶级 
的 字符 串 字 段 建立 索引 ， 也 会 搜索 髓 套 文档 和 数组 中 的 字符 串 字 上 段 : 


> db.blobs.ensureIndex({"$**" :; "text"}) 








也 可 以 为 "$**" 设 置 权重 : 


> db.hn.ensureIndex({"whatever" : "text"}, 
.. {"weights" : {"title" :; 3, "author™ : 1, "$**" ; 2}}) 


"whatever"9] 以 指 代 任何 东西 。 在 设置 权重 时 指明 了 是 对 所 有 字段 进行 
索引 ， 因 此 MongoDB 并 不 要 求 你 明确 给 出 字段 列表 。 


6.3.1 搜索 语法 


默认 情况 下 ，MongoDB 会 使 用 OR 连接 查询 中 的 每 个 词 : “ask OR hn”。 
这 是 执行 全 文本 查询 最 有 效 的 方式 ， 但 是 也 可 以 进行 短语 的 精确 匹配 ， 
以 及 使 用 NOT。 为 了 精确 查询 “ask hn” 这 个 短语 ， 可 以 用 双 引 号 将 查询 
内 容 括 起 来 : 


> db.runCcommand({text: "hn", search: "\"ask hn\""}) 








"queryDebugString" : "ask|lhn|||lask hn||", 
"language" : "english", 
"results" : [ 
{ 
"score" : 2.25, 
"obj" { 
"_id" : ObjectIid("50dcab296803fa7e4f000011")， 
"title" : "Ask HN: Most valuable skills you have?", 
"Url" : "/comments/4974230", 
"id" : 4974230, 
"commentCount" : 37, 
"points" ; 31, 
"postedAgo" : "2 hours ago", 
"postedBy" : "bavidar" 
} 
} 
], 
"stats" : { 
"nscanned" : 4, 
"nscannedobjects" :; 0, 
nnnm : 1, 
"nfound" :; 1, 
"timeMicros" ; 20392 
}, 
"ok" : 1 


这 比 使 用 OR 的 匹配 慢 一 些 ， 因 为 MongoDB 首 先 要 执行 一 个 OR 匹配 ， 然 
后 再 对 匹配 结果 进行 AND 匹 配 。 


可 以 将 查询 字 符 串 的 一 部 分 指定 为 字面 量 匹配 ， 另 一 部 分 仍然 是 普通 匹 
配 : 


> db.runCommand({text: "hn", search: "\"ask hn\" ipod"}) 





这 会 精确 搜索 "ask hn" 这 个 短语 ， 也 会 可 选 地 搜索 "ipod"。 
也 可 以 使 用 "-" 字 符 指 定 特定 的 词 不 要 出 现在 搜索 结果 中 : 





> db.runCommand({text: "hn", search: "-startup vc"}) 


这 样 就 会 返回 匹配 “vc” 但 是 不 包含 “startup” 这 个 词 的 文档 。 
6.3.2 ”优化 全 文本 搜索 
有 几 种 方式 可 以 优化 全 文本 搜索 。 如 果 能 够 使 用 某 些 得 询 条 件 将 搜索 结 


可 以 创建 一 个 由 其 他 查询 条 件 前 级 和 全 文本 字段 组 成 的 
全 索引 : 


> db.blog.ensureIndex({"date" : 1, "post" : "text"}) 








这 就 是 局 部 的 全 文本 索引 ，MongoDB 会 基于 上 面 例子 中 的 "date" 先 将 
搜索 范围 分 散 为 多 个 比较 小 的 树 。 这 样 ， 对 于 特定 日 期 的 文档 进行 全 文 
本 查询 束 会 快 很 多 了 。 


也 可 以 使 用 其 他 查询 条 件 后 级 ， 使 索引 能 够 窗 盖 但 询 。 例 如 ， 如 果 要 返 
回 "author" 和 "post" 字 段 ， 可 以 基于 这 两 个 字段 创建 一 个 复合 索引 : 


> db.blog.ensureIndex({"post" : "text", "author" :; 1}) 





前 级 和 后 级 形式 也 可 以 组 合 在 一 起 使 用 : 


> db.blog.ensureIndex({"date" : 1, "post" : "text", "author" :; 1}) 


这 里 的 前 级 索引 字段 和 后 级 索引 字段 都 不 可 以 是 多 键 字 上 段 。 


创建 全 文本 索引 会 自动 在 集合 上 启用 usePowerof2sizes 选 项 ， 这 个 选项 
可 以 控制 空间 的 分 配方 式 。 这 个 选项 能 够 提高 号 入 速度 ， 所 以 不 要 从 
和 


6.3.3 在 其 他 语言 中 搜索 


当 一 个 文档 被 搬入 之 后 ee 次 被 创建 之 后 ) ，MongoDB 会 
查找 索引 字段 ， 对 字符 串 进 行 分 词 ， 将 其 减 小 为 一 个 基本 单元 
(essential ”unit) 。 然 后 ， 1 六 词 机 制 是 不 同 的 ， 所 以 必须 指 
定 索引 或 者 文档 使 用 的 语言 。 文 本 类 型 的 索引 允许 指 


定 "default_language" 选 项 ， 它 的 默认 值 是 "english"， 可 以 被 设置 为 多 
种 其 他 语言 (MongoDB 的 在 线 文 档 提 供 了 最 新 的 支持 语言 列表 )。 


例如 ， 要 创建 一 个 法 语 的 索引 ， 可 以 这 么 做 : 


> db.users.ensureIndex({"profil" : "text", "intéréts" : "text"}, 
. {"default_language" : "french"}) 


这 样 ， 这 个 索引 就 会 默认 使 用 法 语 的 分 词 机 制 ， 除 非 指 定 了 其 他 的 分 词 
机 制 。 如 果 在 搬入 文档 时 指定 "Language" 字 段 ， 就 可 以 为 每 个 文档 分 别 
指定 分 词 时 使 用 的 语言 : 


> db.users.insert({"username" : "swedishchef", 
, "profile" : "Bork de bork", language : "swedish"}) 


6.4 地理 空 间 索 引 


MongoDB 文 持 儿 种 类 型 的 地 理 空间 索引 。 其 中 最 常用 的 是 2dsphere 索 引 
(用 于 地 球 表 面 类 型 的 地 图 ) 和 2d 索 引 《 用 于 平面 地 图 和 时 间 连 续 的 数 
据 ) 。 


2dsphere 人 允许 使 用 GeoJSON 格 式 〈http:/www.geojson.org ) 指定 点 、 线 
和 多边形 。 点 可 以 用 形 如 [longitude,， latitude] 〈[ 经 度 ， 纬 度 ]) 的 两 
个 元 素 的 数组 表示 : 


{ 
"name” : "New York City", 
"loc™" : { 
"type™" : "Point", 
"coordinates" : [50, 2] 
} 
} 


线 可 以 用 一 个 由 点 组 成 的 数组 来 表示 : 


{ 
"name" :; "Hudson River", 
"loc™" : { 
"type" 9 "Line", 
"coordinates" : [[90,1], [9,2], [1,2]] 
} 
} 


多 边 形 的 表示 方式 与 线 一 样 〈 都 是 一 个 由 点 组 成 的 数组 ) ， 但 
是 "type" 不 同 : 


{ 
"name" : "New England", 
"1Locu : { 
"type" "Polygon", 
"coordinates" : [[9,1], [9,2], [41,2]] 
} 
} 


"loc" 字 段 的 名 字 可 以 是 任意 的 ， 但 是 其 中 的 子 对 象 是 由 GeoJSON 指 定 
的 ， 不 能 改变 。 


在 ensureIndex 中 使 用 "2dsphere" 选 项 就 可 以 创建 一 个 地 理 空 间 索 引 : 


> db.world.ensureIndex({"loc" : "2dsphere"}) 


6.4.1 ”地理 空 间 查 询 的 类 型 


可 以 使 用 多 种 不 同类 型 的 地 理 空间 查询 : 交集 (intersection) 、 包 含 
(within) 以 及 接近 (Cnearness) 。 查 询 时 ， 需 要 将 希望 查找 的 内 容 指 定 
为 形 如 {"$geometry" : geoJsonDesc} 有 的 GeoJSON 对 象 。 


例如 ， 可 以 使 用 "$geoIntersects" 操 作 符 找 出 与 查询 位 置 相交 的 文档 : 


> Var eastVillage = { 
, "type" : "Polygon", 
， "Coordinates" : 
... [-73.9917900, 40.7264100], 
... [-73.9917900, 40.7321400], 
... [-73.9829300, 40.7321400], 
， [-73.9829300, 40.7264100] 
外 
> db.open.street.map.find( 
. {"loc" : {"$geoIntersects" : {"$geometry" : eastVillage}}}) 





这 样 就 会 找到 所 有 与 East Village 区 域 有 交集 的 文档 。 


可 以 使 用 "$within" 查 询 完 全 包含 在 某 个 区 域 的 文档 ， 例 如 : “East 
Village 有 哪些 餐馆 ? ” 


> db.open.street.map.find({"loc" : {"$within" : {"$geometry" : eastVillage}}}) 





与 第 一 个 查询 不 同 ， 这 次 不 会 返回 那些 只 是 经 过 East ”Village( 比 如 街 
道 ) 或 者 部 分 重 登 《比如 用 于 表示 曼哈顿 的 多 边 形 ) 的 文档 。 


最 后 ， 可 以 使 用 "$near" 查 询 附 近 的 位 置 : 


> db.open.street.map.find({"loc" : {"$near" : {"$geometry" : eastVillage}}}) 





注意 ，"s$near" 是 唯一 一 个 会 对 查询 结果 进行 目 动 排序 的 地 理 空间 操作 
符 : "$near" 的 返回 结果 是 按照 距离 由 近 及 远 排序 的 。 


地 理 位 置 查询 有 一 点 非常 有 趣 ， 不 需要 地 理 空 间 索 引 就 可 以 使 

用 "$geoIntersects" 或 者 "$within" ("$near" 需 要 使 用 索引 ) 。 但 是 ， 
建议 在 用 于 表示 地 理 位 置 的 字段 上 建立 地 理 空 间 索 引 ， 这 样 可 以 显著 提 
高 查询 速度 。 


6.4.2 ”复合 地 理 空 间 索 引 


如 果 有 其 他 类 型 的 索引 ， 可 以 将 地 理 空 间 索 引 与 其 他 字段 组 合 在 一 起 使 
用 ， 以 便 对 更 复杂 的 查询 进行 优化 。 上 面 提 到 过 一 种 可 能 的 查询 : “East 
Village 有 哪些 餐馆 ?”。 如 果 仪 仅 使 用 地 理 空间 索引 ， 我 们 只 能 查找 到 
East Village 内 的 所 有 东西 ， 但 是 如 果 要 将 “restaurants” 或 者 是 “pizza” 单 独 
得 询 出 来 ， 就 需要 使 用 其 他 索引 中 的 字段 了 : 


> db.open.street.map.ensureIndex({"tags" : 1, "location" : "2dsphere"}) 























然后 就 能 够 很 快 地 找到 East Village 内 的 披萨 店 了 : 
> db,open.street.map.find({"1oc"”: {"$within" : {"$geometry" : eastVillage}}, 


.. "tags" : "pizza"}) 


其 他 索引 字段 可 以 放 在 "2dsphere" 字 段 前 面 也 可 以 放 在 后 面 ， 这 取决 于 
我 们 希望 首先 使 用 其 他 索引 的 字段 进行 过 滤 还 是 首先 使 用 位 置 进行 过 
滤 。 应 该 将 那个 能 够 过 滤 挥 尽 可 能 多 的 结果 的 字段 放 在 前 面 。 


6.4.3 ”2D 索引 


对 于 非 球 面 地 图 (游戏 地 图 、 时 间 连 续 的 数据 等 ) ， 可 以 使 用 "2d" 索 引 
代替 "2dsphere'": 





> db.hyrule.ensureIndex({"tile" :; "2d"}) 








"2d" 索 引用 于 局 平 表 面 ， 而 不 是 球体 表面 。"2d" 索 引 不 应 该 用 在 球体 表 
面 上 ， 人 否则 极点 附近 会 出 现 大 量 的 扭曲 变形 。 


文档 中 应 该 使 用 包含 两 个 元 素 的 数组 表示 2d 索 引 字 段 (写作 本 书 时 ， 这 
个 字段 还 不 是 GeoJSON 文 档 ) 。 示 例如 下 : 





"name" : "Water Temple", 
"tile" : [ 32，22 ] 
} 





"2d" 索 引 只 能 对 点 进行 索引 。 可 以 保存 一 个 由 点 组 成 的 数组 ， 但 是 它 只 
会 被 保存 为 由 点 组 成 的 数组 ， 不 会 被 当成 线 。 特 别 是 对 于 "$within" 奉 
询 来 说 ， 这 是 一 项 重要 的 区 别 。 如 有 果 将 街道 保存 为 由 点 组 成 的 数组 ， 那 
么 如 果 其 中 的 菏 个 点 位 于 给 定 的 形状 之 内 ， 这 个 文档 融会 与 $within 相 
匹配 。 但 是 ， 由 这 些 点 组 成 的 线 并 不 一 定 完 全 包含 在 这 个 形状 之 内 。 


默认 情况 下 ， 地 理 空间 索引 是 假设 你 的 值 都 介 于 -180~180。 可 以 根据 需 
要 在 ensureIndex 中 设置 更 大 或 者 更 小 的 索引 边界 值 : 


> db.star.trek.ensureIndex({"light-years™” : "2d"}, {"min" : -1000, "max" :; 1000}) 














这 会 创建 一 个 2000x2000 大 小 的 空间 索引 。 


使 用 "2d" 索 引进 行 查 询 比 使 用 "2dsphere" 要 简单 许多 。 可 以 直接 使 
用 "$near" 或 者 "$within"， 而 不 必 带 有 "$geometry" 子 对 象 。 可 以 直接 指 
定 坐标 : 


> db.hyrule.find({"tile" : {"$near" : [20, 21]}}) 








这 样 会 返回 hyrule 集 合 内 的 全 部 文档 ， 按 照 距离 (20,21) 这 个 点 的 距离 排 
序 。 如 果 没 有 指定 文档 数量 限制 ， 默 认 最 多 返回 100 个 文档 。 如 果 不 需 
要 这 么 多 结果 ， 应 该 根据 需要 设置 返回 文档 的 数量 以 节省 服务 器 资源 。 
例如 ， 下 面 的 代码 只 会 返回 距离 (20,21) 最 近 的 10 个 文档 : 


> db.hyrule.find({"tile" : {"$near™" : [20, 21]}}).1limit(10) 





"$within" 可 以 碍 询 出 某 个 形状 〈 和 矩形 、 圆 形 或 者 是 多 边 形 ) 范围 内 的 
所 有 文档 。 如 果 要 使 用 和 窍 形 ， 可 以 指定 "$box" 选 项 : 


> db.hyrule.find({"tile" : {"$within" : {"$box" : [[10, 20], [15, 30]]}}}) 


"$box" 接 受 一 个 两 元 素 的 数组 第 一 个 元 素 指 定 左 下 角 的 坐标 ， 第 二 个 
元 素 指定 右上 角 的 坐标 。 


类 似 地 ， 可 以 使 用 "$center" 选 项 返回 圆 形 范围 内 的 所 有 文档 ， 这 个 选 
项 也 是 接受 一 个 两 元 素数 组 作为 参数 : 第 一 个 元 素 是 一 个 点 ， 用 于 指定 
圆心 ， 第 二 个 参数 用 于 指定 半径 : 


> db.hyrule.find({"tile" : {"$within" : {"$center" : [[12, 25], 5]}}}) 





还 可 以 使 用 多 个 点 组 成 的 数组 来 指定 多 边 形 : 


> db.hyrule. Fand ( 
{"tile" : {"$within" : {"$polygon" : [[90, 20], [10, 0], [-10, 0]]}}}) 


这 个 例子 会 但 询 出 包含 给 定 三 角形 内 的 点 的 所 有 文档 。 列 表 中 的 最 后 一 
个 点 会 被 连接 到 第 一 个 点 ， 以 便 组 成 多 边 形 。 


6.5 ”使 用 GridFS 存 储 文件 


GridFS 是 MongoDB 的 一 种 存储 机 制 ， 用 来 存储 大 型 二 进 制 文件 。 下 面 
列 出 了 使 用 GridFS 作 为 文件 存储 的 理由 。 


。 使 用 GridFS 能 够 简化 你 的 栈 。 如 果 已 经 在 使 用 MongoDB， 那 么 可 

以 使 用 GridFS 来 代 蔡 独立 的 文件 存储 工具 。 

GridFS 会 自动 平衡 已 有 的 复制 或 者 为 MongoDB 设 置 的 自动 分 片 ， 

所 以 对 文件 存储 做 故障 转移 或 者 横向 扩展 会 更 容易 。 

当 用 于 存储 用 户 上 传 的 文件 时 ，GridFS 可 以 比较 从 容 地 解决 其 他 一 

些 文件 系统 可 能 会 遇 到 的 问题 。 例 如 ， 在 GridFS 文 件 系统 中 ， 如 果 

在 同一 个 目录 下 存储 大 量 的 文件 ， 没 有 任何 问题 。 

。 在 GridFS 中 ， 文 件 存 储 的 集中 度 会 比较 高 ， 因 为 MongoDB 是 以 2 
GB 为 单位 来 分 配 数 据 文件 的 。 











GridFS 也 有 一 些 缺 点 。 


。 GridFS 的 性 能 比较 低 : 从 MongoDB 中 访问 文件 ， 不 如 直接 从 文件 
系统 中 访问 文件 速度 快 。 

。 如 果 要 修改 GridFS 上 的 文档 ， 只 能 先 将 已 有 文档 删除 ， 然 后 再 将 整 
个 文档 重新 保存 。MongoDB 将 文件 作为 多 个 文档 进行 存储 ， 所 以 
它 无 法 在 同一 时 间 对 文件 中 的 所 有 块 加 锁 。 


通常 来 说 ， 如 果 你 有 一 些 不 常 改 变 但 是 经 常 需要 连续 访问 的 大 文件 ， 那 
么 使 用 GridFS 再 合适 不 过 了 。 


6.5.1 GridFS 入 门 











使 用 GridFS 最 简单 的 方式 是 使 用 mongofiles 工 具 。 所 有 的 MongoDB 发 行 
版 中 都 包含 了 mongofiles， 可 以 用 它 在 GridFS 中 上 传 文件 、 下 载 文 件 、 
查看 文件 列表 、 搜 索 文 件 ， 以 及 删除 文件 。 


与 其 他 的 命令 行 工 具 一 样 ， 运 行 mongofiles --help 就 可 以 查看 它 的 可 用 
选项 了 。 


在 下 面 这 个 会 话 中 ， 首 先 用 mongofiles 从 文件 系统 中 上 传 一 个 文件 到 
GridFS， 然 后 列 出 GridFS 中 的 所 有 文件 ， 最 后 再 将 之 前 上 传 过 的 文件 从 
GridFS 中 下 载 下 来 : 








$ echo "Hello, world" > foo.txt 

$ ./mongofiles put foo.txt 

connected to: 127.0.0.1 

added file: { _id: ObjectId('4cod2a6c3052c25545139b88 ' )， 
filename: "foo.txt", length: 13, chunkSize: 262144, 
uploadDate: new Date(1275931244818 ) ， 
md5: "a7966bf58e23583c9a5a4059383ff850" } 

done! 

$ ./mongofiles list 

connected to: 127.0.0.1 

foo.txt 13 

$ rm foo.txt 

$ ./mongofiles get foo.txt 

connected to: 127.0.0.1 

done write to: foo.txt 

$ cat foo.txt 

Hello,world 


在 上 面 的 例子 中 ， 使 用 mongofiles 执 行 了 三 种 基本 操作 : put、1List 和 


get。put 操 作 可 以 将 文件 系统 中 选 定 的 文件 上 传 到 GridFS; 1ist 操 作 可 
以 列 出 GridFS 中 的 文件 ; get 操 作 与 put 相 反 ， 用 于 将 GridFS 中 的 文件 下 
载 到 文件 系统 中 。mongofiles 还 支持 男 外 两 种 操作 : 用 于 在 GridFS 中 搜 
索 文 件 的 search 操 作 和 用 于 从 GridFS 中 删除 文件 的 delete 操 作 。 


6.5.2 ”在 MongoDB 了 驱动 程序 中 使 用 GridFS 


所 有 客户 端 驱动 程序 都 提供 了 GridFS API。 例 如 ， 可 以 用 
PyMongo (MongoDB 的 Python 驱 动 程序 ) 执行 与 上 面 直接 使 
用 mongofiles 一 样 的 操作 : 


>>> from pymongo import Connection 
>>> import gridfs 
>>> db = Connection().test 
>>> fs = gridfs.GridFS(db) 
>>> file_id = fs.put("Hello, world", filename="foo.txt") 
>>> fs.1ist() 
[u'foo.txt'] 
>>> fs. get (file_ id).read() 
'Hello, worl 


PyMongo 中 用 于 操作 GridFS 的 API 与 nongofiles 非 常 像 : 可 以 很 方便 地 
执行 put、get 和 1ist 操 作 。 几 乎 所 有 MongoDB 驱 动 程序 都 遵循 这 种 基本 
模式 对 GridFS 进 行 操作 ， 当 然 通 党 也 会 提供 一 些 更 高 级 的 功能 。 关 于 特 
定 驱 动 程序 对 GridFS 的 操作 ， 可 以 但 询 相 关 驱 动 程序 的 文件 。 


6.5.3” 揭 开 GridFS 的 面纱 


GridFS 是 一 种 轻 量 级 的 文件 存储 规范 ， 用 于 存储 MongoDB 中 的 普 
档 。MongoDB 服 务 器 几乎 不 会 对 GridFS 请 求 做 “特殊 ”处 理 ， 所 有 站 表亲 
由 客户 端的 驱动 程序 和 工具 负责 。 


GridFS 背 后 的 理念 是 :可 以 将 大 文件 分 割 为 多 个 比较 大 的 块 ， 将 每 个 块 
作为 独立 的 文档 进行 守信 由 于 MongoDB 文 持 在 文档 中 存储 二 进 制 数 
据 ， 所 以 可 以 将 芮 存储 的 开销 降 到 非常 低 。 除 了 将 文件 的 每 一 个 块 单独 
存储 之 外 ， 还 有 一 个 文档 用 于 将 这 些 块 组 织 在 一 起 并 存储 该 文件 的 元 信 














GridFS 中 的 块 会 被 存 储 到 专用 的 集合 中 。 块 默认 使 用 的 集合 
是 fs.chunks， 不 过 可 以 修改 为 其 他 集合 。 在 块 集合 内 部 ， 各 个 文档 的 
结构 非常 简单 : 


于 
"_id" : ObjectId("..."), 
J 9 0, 
"data" : BinData(" a 
"files_id" : objectId(" 2) 
} 


与 其 他 的 MongoDB 文 档 一 样 ， 块 也 都 拥有 一 个 唯一 的 "_ id"。 另 外 ， 还 
有 如 下 几 个 键 。 


e "files_id" 


块 所 属 文件 的 元 信息 。 


@ in" 


块 在 文件 中 的 相对 位 置 。 


e "data" 


块 所 包含 的 二 进 制 数据 。 


每 个 文件 的 元 信息 被 保存 在 一 个 单独 的 集合 中 ， 默 认 情 况 下 这 个 集合 
是 fs.files。 这 个 文件 集合 中 的 每 一 个 文档 表示 GridFS 中 的 一 个 文件 ， 
文档 中 可 以 包含 与 这 个 文件 相关 的 任意 用 户 自 定义 元 信息 。 除 用 户 自 定 
义 的 键 之 外 ， 还 有 几 个 键 是 GridFS 规 范 规定 必须 要 有 的 。 














id" 
文件 的 唯一 id， 这 个 值 就 是 文件 的 每 个 块 文 档 中 "files_id" 的 值 。 





"length" 


文件 所 包含 的 字 市 数 。 


"chunkSize" 
组 成 文件 的 每 个 块 的 大 小 ， 单 位 是 字 节 。 这 个 值 默 认 是 256 KB， 可 
以 在 需要 时 进行 调整 。 





"uploadDate" 


文件 被 上 传 到 GridFS 的 日 期 。 


@ "md57 


文件 内 容 的 md5 校 验 值 ， 这 个 值 由 服务 器 端 计算 得 到 。 


这 些 必须 字段 中 最 有 意思 《或 者 说 能 够 见 名 知 意 ) 的 一 个 可 能 
是 "md5"。"md5" 字 段 的 值 是 由 MongoDB 服 务 器 使 用 filemd5 命 令 得 到 
的 ， 这 个 命令 可 以 用 来 计算 上 传 到 GridFS 的 块 的 md5 校 验 值 。 这 意味 
着 ， 用 户 可 以 通过 检查 文件 的 mds 校 验 值 来 确保 文件 上 传 正确 。 


如 上 面 所 说 ， 在 fs.files 中 ， 除 了 这 些 必须 字段 外 ， 可 以 使 用 任何 自 定 
义 的 字段 来 保存 必需 的 文件 元 信息 。 可 能 你 希望 在 文件 元 信息 中 保存 文 
件 的 下 载 次 数 、MIME 类 型 或 者 用 户 评分 。 

只 要 理解 了 GridFS 底 层 的 规范 ， 自 己 就 可 以 很 容易 地 实现 一 些 驱动 程序 
没有 提供 的 辅助 功能 。 例 如 ， 可 以 使 用 distinct 命 令 得 到 GridFS 中 保存 
文件 的 文件 名 集合 《集合 中 的 每 个 文件 名 都 是 唯一 的 ) 。 


> db.fs.files.distinct("filename") 
[ "foo.txt" , "bar.txt" , "baz.txt" ] 














在 加 载 或 者 收集 文件 相关 信息 时 ， 应 用 程序 可 以 拥有 非常 大 的 灵 
消 性 s 
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如 果 你 有 数据 存储 在 MongoDB 中 ， 你 想 做 的 可 能 就 不 仅仅 是 将 数据 提 
取出 来 那么 简单 了 ;你 可 能 希望 对 数据 进行 分 析 并 加 以 利用 。 本 草 介绍 
MongoDB 提 供 的 聚合 工具 : 


。 采 合 框 染 ; 
e MapReduce:; 
。 几 个 简单 聚合 命令 : count、distinct 和 group。 


7.1 聚合 框架 


使 用 聚合 框架 可 以 对 集合 中 的 文档 进行 变换 和 组 合 。 基 本 上 ， 可 以 用 多 
个 构件 创建 一 个 管道 (pipeline) ， 用 于 对 一 连 串 的 文档 进行 处 理 。 这 

些 构件 包括 科 选 〈filtering) 、 投 射 (projecting) 、 分 组 〈grouping) 、 

排序 (sorting) 、 限 制 〈limiting) 和 跳 过 (skipping)。 


例如 ， 有 一 个 保存 着 杂志 文革 的 集合 ， 你 可 能 希望 找 出 发 表 文章 最 多 的 


那个 作者 。 假 设 每 篇 文章 被 保存 为 MongoDB 中 的 一 个 文档 ， 可 以 按照 
如 下 步骤 创建 管道 。 





1. 将 每 个 文章 文档 中 的 作者 投射 出 来 。 
2. 将 作者 按照 名 字 排序 ， 统 计 每 个 名 字 出 现 的 次 数 。 
3. 将 作者 按照 名 字 出 现 次 数 降序 排列 。 

4. 将 返回 结果 限制 为 前 5 个 。 


这 里 面 的 每 一 步 都 对 应 聚合 框 杂 中 的 一 个 操作 符 : 





1. {"$project" : {"author" : 1}} 
这 样 可 以 将 "author" 从 每 个 文档 中 投射 出 来 。 


这 个 语法 与 查询 中 的 字段 选择 器 比较 像 : 可 以 通过 指 
定 "fieldname" : 1 选择 需要 投射 的 字段 ， 或 者 通过 指 





定 "fieldname":0 排 除 不 需要 的 字段 。 执 行 完 这 个 "$project" 操 作 之 
后 ， 结 果 集 中 的 每 个 文档 都 会 以 {" id" : jid, "author" : 
"authorName"} 这 样 的 形式 表示 。 这 些 结果 只 会 在 内 存 中 存在 ， 不 
会 被 写 入 磁盘 。 








. {"$group™" : {"_id" :; "$author", "count™ : {"$sum" :; 1}}} 


这 样 就 会 将 作者 按照 名 字 排 序 ， 某 个 作者 的 名 字 每 出 现 一 次 ， 就 会 
对 这 个 作者 的 "count" 加 1。 

这 里 首先 指定 了 需要 进行 分 组 的 字段 "author"。 这 是 由 "_id" 
"$author" 指 定 的 。 可 以 将 这 个 操作 想象 为 : 这 个 操作 执行 完 后 ， 
每 个 作者 只 对 应 一 个 结果 文档 ， 所 以 "author" 束 成 了 文档 的 唯一 标 
识 符 ("_id") 。 

第 二 个 字段 的 意思 是 为 分 组 内 每 个 文档 的 "count" 字 上段 加 1。 注 意 ， 
新 加 入 的 文档 中 并 不 会 有 "count" 字 7 段 ， 这 "$group" 创 建 的 一 个 新 字 
段 。 

执行 完 这 一 步 之 后 ， 结 果 集 中 的 每 个 文档 会 是 这 样 的 结构 : {"_id" 


: "authorName", "count™" :; articleCount}。 








. {"$sort" : {"count" : -1}} 
这 个 操作 会 对 结果 集中 的 文档 根据 "count "字段 进行 降序 排列。 


. {"$limit" : 5} 


这 个 操作 将 最 终 的 返回 结果 限制 为 当前 结果 中 的 前 5 个 文档 。 


在 MongoDB 中 实际 运行 时 ， 要 将 这 些 操 作 分 别传 给 aggregate( ) 天 
数 : 














> db.articles.aggregate({"$project" : {"author" : 1}}, 
, {"$group™" : {"_id" : "$author", "count™ : {"$sum"” :; 1}}}, 
,， {"$sort™" :; f{"count™ :; -1}}, 
. {"$limit" : 5}) 
{ 
"result" :; [ 


"id" : "R, L. Stine", 
"count" : 430 

}, 

{ 


"_id" : "Edgar Wallace", 
"count™" : 175 


}, 
{ 
"_id" : "Nora Roberts", 
"count" : 145 
}, 
{ 
"_id" : "Erle Stanley Gardner", 
count 
}, 
{ 
"_id" : "Agatha Christie", 
count" : 85 
} 
], 
"ok" :; 1 








aggregate() 会 返回 一 个 文档 数组 ， 其 中 的 内 容 是 发 表 文章 最 多 
个 作者 。 
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&, 如 果 管 道 没有 给 出 预期 的 结果 ， 就 需要 进行 调试 ， 调 试 
时 ， 可 以 先 只 指定 第 一 个 管道 操作 符 。 如 果 这 时 得 到 了 预期 结 
那 就 再 指定 第 二 个 管道 操作 符 。 以 前 面 的 例子 来 说 ， 首 先 要 试 着 只 
使 用 "$project" 操 作 符 进行 聚合 ， 如 果 这 个 操作 符 的 结果 是 有 效 
的 ， 就 再 添加 "$group" 操 作 符 ， 如 果 结 果 还 是 有 效 的 ， 就 再 添 
加 "ssort"; 最 后 再 添加 "$limit" 操 作 符 。 这 样 就 可 以 逐步 定位 到 造 
成 问题 的 操作 符 。 

本 书写 作 时 ， 聚 合 框架 还 不 能 对 集合 进行 写 入 操作 ， 因 此 所 有 结果 必须 

返回 给 客户 端 。 所 以 ， 聚 合 的 结果 必须 要 限制 在 16 MB 以 内 (MongoDB 

支持 的 最 大 响应 消息 大 小 ) 。 

7.2 ”管道 操作 符 


每 个 操作 符 都 会 接受 一 连 串 的 文档 ， 对 这 些 文档 做 一 些 类 型 转换 ， 最 后 
将 转换 后 的 文档 作为 结果 传递 给 下 一 个 操作 符 〈 对 于 最 后 一 个 管道 操作 
符 ， 是 将 结果 返回 给 客户 端 ) 。 




















不 同 的 管道 操作 符 可 以 按 任意 顺序 组 合 在 一 起 使 用 ， 而 且 可 以 被 重复 任 
意 多 次 。 例 如 ， 可 以 先 做 "$match"， 然 后 做 "$group"， 然 后 再 
做 "$match" 〈 与 之 前 的 "$match" 匹 配 不 同 的 查询 条 件 ) 。 


7.2.1 $match 


$natch 用 于 对 文档 集合 进行 筛选 ， 之 后 就 可 以 在 筛选 得 到 的 文档 子 集 上 
做 聚合 。 例 如 ， 如 果 想 对 Oregon〔 俄 勒 闪 州 ， 简 写 为 OR)〉 的 用 户 做 统 
Eh 束 可 以 使 用 {$match : {"state" :; "OR"}}。 "$match" 可 以 使 用 所 有 
常规 的 查询 操作 符 〈"$gt"、"$lLt"、"$in" 等 ) 。 有 一 个 例外 需要 注意 : 
不 能 在 "$match" 中 使 用 地 理 空间 操作 符 。 


通常 ， 在 实际 使 用 中 应 该 尽 可 能 将 "$match" 放 在 管道 的 前 面 位 置 。 这 样 
做 有 两 个 好 处 : 一 是 可 以 快速 将 不 需要 的 文档 过 滤 挥 ， 以 减少 管道 的 工 
作 量 ， 二 是 如 果 在 投射 和 分 组 之 前 执行 "$match"， 碍 询 可 以 使 用 索引 。 


7.2.2 ”$project 


相对 于 “普通 ”的 查询 而 言 ， 管 道中 的 投射 操作 更 加 强大 。 使 
用 "$project" 可 以 从 子 文 档 中 提取 字段 ， 可 以 重 命名 字段 ， 还 可 以 在 这 
些 字 段 上 进行 一 些 有 意思 的 操作 。 


最 简单 的 一 个 "$project" 操 作 是 从 文档 中 选择 想 要 的 字段 。 可 以 指定 包 
含 或 者 不 包含 一 个 字段 ， 它 的 语法 与 查询 中 的 第 二 个 参数 类 似 。 如 果 在 
原来 的 集合 上 执行 下 面 的 代码 ， 返 回 的 结果 文档 中 只 包含 一 


个 "author" 字 段 。 


> db.articles.aggregate({"$project" : {"author™” : 1, "_id" :; 0}}) 


默认 情况 下 ， 如 果 文 档 中 存在 "_id" 字 段 ， 这 个 字段 就 会 被 返回 
("_id" 字 段 可 以 被 一 些 管 道 操作 符 移 除 ， 也 可 能 已 经 被 之 前 的 投射 操 
作 给 移 除 了 ) 。 可 以 使 用 上 面 的 代码 将 "_id" 从 结果 文档 中 移 除 。 包 合 
字段 和 排除 字段 的 规则 与 常规 得 询 中 的 语法 一 致 。 


也 可 以 将 投射 过 的 字段 进行 重 命名 。 例 如 ， 可 以 将 每 个 用 户 文档 
的 "_id" 在 返回 结果 中 重 命 名 为 "userId": 


> db.users.aggregate({"$project" : {"userId" : "$ id", "_id" : 0}}) 
{ 





"result" :; [ 


"userId" : ObjectId("50e4b32427b160e099ddbee7") 


"userId" : ObjectId("50e4b32527b160e099ddbee8") 


这 里 的 "$fieldname" 语 法 是 为 了 在 聚合 框架 中 引用 fieldname 字 段 (上 面 
的 例子 中 是 "_id") 的 值 。 例 如 ，"$age" 会 被 蔡 换 为 "age" 字 段 的 内 容 
(可 能 是 数值 ， 也 可 能 是 字符 串 ) ，"$tags.3" 会 被 蔡 换 为 tags 数 组 中 
的 第 4 个 元 素 。 所 以 ， 上 面 例 子 中 的 "$_id" 会 被 奉 换 为 进入 管道 的 每 个 
文档 的 "id" 字 段 的 值 。 


注意 ， 必 须 明确 指定 将 " id" 排除 ， 人 否则 这 个 字段 的 值 会 家 返回 两 次 : 
一 次 航标 为 "userId"， 一 次 被 标 为 "_ id"。 可 以 使 用 这 种 技术 生成 字段 
的 多 个 副本 ， 以 便 在 之 后 的 "$group" 中 使 用 。 


在 对 字段 进行 重 命名 时 ，MongoDB 并 不 会 记录 字段 的 历史 名 称 。 因 
此 ， 如 果 在 "originalFieldname" 字 段 上 有 一 个 索引 ， 聚 合 框架 无 法 在 下 
面 的 排序 操作 中 使 用 这 个 索引 ， 尺 管 人 眼 一 下 子 就 能 看 出 下 面 代码 中 
的 "newFieldname" 与 "originalFieldname" 表 示 同 一 个 字段 。 


> db.articles.aggregate({"$project" : {"newFieldname" : "$originalFieldname"}}, 
.. {"$sort" : {"newFieldname" : 1}}) 





所 以 ， 应 该 尽量 在 修改 字段 名 称 之 前 使 用 索引 。 

1. 管道 表达 式 

最 简单 的 "$project" 表 达 式 是 包含 和 排除 字段 ， 以 及 字段 名 称 
("$fieldname") 。 但 是 ， 还 有 一 些 更 强大 的 选项 。 也 可 以 使 用 表达 式 
(expression) 将 多 个 字面 量 和 变量 组 合 在 一 个 值 中 使 用 。 


在 聚合 框架 中 有 几 个 表达 式 可 用 来 组 合 或 者 进行 任意 深度 的 藤 套 ， 以 便 
创建 复杂 的 表达 式 。 











2. 数学 表达 式 (mathematical expression ) 


算术 表达 式 可 用 于 操作 数值 。 指 定 一 组 数值 ， 就 可 以 使 用 这 个 表达 式 进 
行 操 作 了 。 例 如 ， 下 面 的 表达 式 会 将 "salary" 和 "bonus" 字 段 的 值 相 加 。 
> db.employees.aggregate( 
ji 
"$project" : { 
"totalpay" : 


"$add" : ["$salary", "$bonus"] 
} 


Se } 
:，}) 
可 以 将 多 个 表达 式 骨 套 在 一 起 组 成 更 复杂 的 表达 式 。 假 设 我 们 想 要 从 总 
金额 中 扣除 为 401(k) ”缴纳 的 金额 。 可 以 使 用 "$subtract" 表 达 式 : 
1 401(k) 是 美国 的 一 种 养老 金 计划 。 一 一 译 者 注 
> db.employees.aggregate( 
st "$project" : { 
"totalpay" : { 
"$subtract" : [{"$add" : ["$salary", "$bonus"]}, "$401k"] 
= 
} 
:，}) 


表达 式 可 以 进行 任意 层次 的 馈 套 。 
下 面 是 每 个 操作 符 的 语法 : 


"$add" : [expr1i[, expr2, ..., exprN]| 


这 个 操作 符 接 受 一 个 或 多 个 表达 式 作为 参数 ， 将 这 些 表达 式 相 加 。 


"$subtract" : [expr1i, expr2] 


0 用 第 一 个 表达 式 减 去 第 二 个 表达 式 作为 结 


"$multiply" : [expri[, expr2, ..., eXxprN]| 
接受 一 个 或 者 多 个 表达 式 ， 并 且 将 它们 相 乘 。 
"$divide" : [exprT，expr2] 


接受 两 个 表达 式 ， 用 第 一 个 表达 式 除 以 第 二 个 表达 式 的 丙 作 为 结果 。 


"$mod" : [exprI，expr2] 
人 


3. 日 期 表达 式 (date expression ) 


许多 聚合 都 是 基于 时 间 的 : 上 周 发 生 了 什么 ? 上 个 月 发 生 了 什么 ?过 去 
一 年 间 发 生 了 什么 ? 因此， 聚合 框架 中 包含 了 一 些 用 于 提取 日 期 信息 的 
表达 

式 : "$year"、 “$month”、"$week"、"$day0fMonth"、"$day0fweek"、 "$d 
2 


每 种 日 期 类 型 的 操作 都 是 类 似 的 : 接受 一 个 日 期 表达 式 ， 返 回 一 个 数 
值 。 下 面 的 代码 会 返回 每 个 雇员 入 职 的 月 份 : 


> db.employees.aggregate( 
wi 





"$project" : { 

"hiredIn" : {"$month" : "$hireDate"} 
es } 
:，}) 








也 可 以 使 用 字面 量 日 期 。 下 面 的 代码 会 计算 出 每 个 雇员 在 公司 内 的 工作 
时 间 : 
> db.employees.aggregate( 
ee. "$project" : { 
"tenure™" : 
"$subtract" :; [{"$year" : new Date()}, {"$year" : "$hireDate"}] 
} 


ts } 
.. }) 


4. 字符 串 表 达 式 (string expression ) 
也 有 一 些 基 本 的 字符 串 操作 可 以 使 用 ， 它 们 的 签名 如 下 所 示 : 


"$substr" : [expr, startoffset, numToReturn]| 
其 中 第 一 个 参数 expr 必 须 是 个 字符 串 ， 这 个 操作 会 截取 这 个 字符 串 的 子 
串 〈 从 第 startoffset 字 节 开 始 的 numToReturn 字 节 ， 注 意 ， 是 字 节 ， 不 








是 字符 。 在 多 字 市 编码 中 尤其 要 注意 这 一 点 ) expr 必 须 是 字符 串 。 


"$concat™" : [expr1i[, expr2, ..., exprN]] 


将 给 定 的 表达 式 或 者 字符 串 〉 连接 在 一 起 作为 返回 结 


"$toLower" : expr 
参数 expr 必 须 是 个 字符 串 值 ， 这 个 操作 返回 expr 的 小 写 形式 。 


"$toUpper" : expr 
参数 expr 必 须 是 个 字符 串 值 ， 这 个 操作 返回 expr 的 大 写 形式 。 
改变 字符 大 小 写 的 操作 ， 只 保证 对 罗马 字符 有 效 。 


下 面 是 一 个 生成 j.doe@example.com 格 式 的 email 地 址 的 例子 。 它 提 
取 "$firstname" 的 第 一 个 字符 ， 将 其 与 多 个 常量 字符 串 和 "$lastname" 连 
接 成 一 个 字符 串 : 
> db.employees.aggregate( 
"$project" : { 
"email" : { 
"$concat" : 


{"$substr" : ["$firstName", 0, 1]}, 


, 
"$lastName", 
"@example.com" 


} 
和 } 

5. 逻辑 表达 式 (logical expression ) 
有 一 些 逻 辑 表 达 式 可 以 用 于 控制 语句 。 
下 面 是 儿 个 比较 表达 式 。 

"$cmp" : [expr1i, expr2] 


比较 expr1i 和 expr2。 如 果 expr1 等 于 expr2， 返 回 0; 如 果 expr1 < expr2， 
返回 一 个 负数 ; 如 果 expr1 >expr2， 返 回 一 个 正 数 。 


"$strcasecmp" : [string1, string2] 








比较 stringl 和 string2， 区 分 大 小 写 。 只 对 罗马 字符 组 成 的 字符 串 有 
效 。 

"$eq"/"$ne"/"$gt"/"$gte"/"$1lt"/"$lte" : [expr1i, expr2] 

对 expr1i 和 expr2 执 行 相应 的 比较 操作 ， 返 回 比 较 的 结果 (true 

或 false) 。 


下 面 是 几 个 布尔 表达 式 。 

"$and" : [expr1i[, expr2, ..., exprN]]| 

如 果 所 有 表达 式 的 值 都 是 true， 那 就 返回 true， 否 则 返回 false。 
"$or™ : [expri[, expr2, ..., eXxprN]]| 

只 要 有 任意 表达 式 的 值 为 true， 就 返回 true， 否 则 返回 false。 
"$not"” : expr 

对 expr 取 反 。 

还 有 两 个 控制 语句 。 

"$cond™" : [booleanExpr, trueExpr, falseExpr] 


如 果 pbooleanExpr 的 值 是 true， 那 就 返回 trueExpr， 耕 则 返回 
falseExpr。 


"$ifNull" : [expr, replacementExpr | 
如 果 expr 是 nulL1， 返 回 replacementExpr， 人 否则 返回 expr。 


通过 这 些 操作 符 ， 就 可 以 在 聚合 中 使 用 更 复杂 的 逻辑 ， 可 以 对 不 同 数据 
执行 不 同 的 代码 ， 得 到 不 同 的 结果 。 


党 道 对 于 输入 数据 的 形式 有 特定 要 求 ， 所 以 这 些 操作 符 在 传 入 数据 时 要 
特别 注意 。 算 术 操 作 符 必 须 接 受 数 值 ， 日 期 操作 符 必 须 接受 日 期 ， 字 符 
串 操 作 符 必 须 接 受 字 符 串 ， 如 果 有 人 字符 缺失 ， 这 些 操作 符 束 会 报错 。 如 
0 








6. 一 个 提取 的 例子 


假如 有 个 教授 想 通过 某 种 比较 复杂 的 计算 为 学 生 打 分 : 出 勤 率 占 10%， 
日 常 测验 成 绩 占 30%， 期 末 考 试 占 60% (如 果 是 老师 最 宠爱 的 学 生 ， 那 





么 分 数 就 是 100) 。 可 以 使 用 如 下 代码 : 


> db.students.aggregate( 


{ 
: "$project" : { 
"grade™" : { 
"$cond™" : 
: "$teacherspet", 
i 100, // if 
{ // else 
"$add" : [ 
， {"$multiply" : [.1, "$attendanceAvg"]}, 
{"$multiply" : [.3, "$quizzAvg"]}, 
{"$multiply" : [.6, "$testAvg"]} 
: ] 
: } 
: ] 
: } 
: } 
，}) 


7.2.3 S$group 


$group 操 作 可 以 将 文档 依据 特定 字段 的 不 同 值 进行 分 组 。 下 和 面 是 儿 个 分 
组 的 例子 。 





。 如 果 我 们 以 分 钟 作为 计量 单位 ， 和 希望 找 出 每 天 的 平均 湿度 ， 就 可 以 
根据 "day" 字 段 进行 分 组 。 

。 如 果 有 一 个 学 生 集合 ， 和 希望 按照 分 数 等 级 将 学 生 分 为 多 个 组 ， 可 以 
根据 "grade" 字 段 进 行 分 组 。 

。 如 果 有 一 个 用 户 集 合 ， 和 希望 知道 每 个 城市 有 多 少 用 户 ， 可 以 根 
据 "state" 和 "city" 两 个 字段 对 集合 进行 分 组 ， 
个 "city"/"state" 对 对 应 一 个 分 组 。 不 应 该 只 根据 "city" 字 上段 进行 
分 组 ， 因 为 不 同 的 州 可 能 拥有 相同 名 字 的 城市 。 


如 宁 选 定 了 需要 进行 分 组 的 字段 ， 就 可 以 将 选 定 的 字段 传递 
给 "$group" 函 数 的 "_id" 字 段 。 对 于 上 面 的 例子 ， 相 应 的 代码 如 下 : 








@ {"$group" {"_id" : "$day"}} 
@ {"$group" 5 {"_id" : "$grade"}} 
e {"$group™” : {"_id" :; {"state"” : "$state", "city" 


"gcity"}}} 


如 果 执 行 这 些 代码 ， 结 东 集中 每 个 分 组 对 应 一 个 只 有 二 个 字段 ys 

键 ) 的 文本 。 例如 ， 按 : te 吉 果 可 能 

是 : {"result" : [{"_ : 1A+ 叶 ，f id 1 nA}, {id" : "A-")}, 
{"_id" : i a : 1}。 通 过 上 面 这 些 代码 ， 可 以 得 到 特定 

字段 中 每 一 个 不 同 的 伸 但 是 所 有 例子 都 要 求 基 于 这 些 分 组 进行 一 些 计 

0 可 以 添加 一 些 字 段 ， 使 用 分 组 操作 符 对 每 个 分 组 中 的 文档 做 

一 些 ? 


1. 分 组 操作 符 

些 分 组 操作 符 允 许 对 每 个 分 组 进行 计算 ， 得 到 相应 的 结果 。7.1 市 介 
绍 过 "$sum" 分 组 操作 符 的 作用 : 分 组 中 每 出 现 一 个 文档 ， 它 就 对 计算 结 
朵 加 1， 这 样 便 可 以 得 到 每 个 分 组 中 的 文档 数量 。 
2. 算术 操作 符 
有 两 个 操作 符 可 以 用 于 对 数值 类 型 字段 的 值 进行 计 


"$sum" 和 "$average'"。 





e "$sum" : value 
对 于 分 组 中 的 每 一 个 文档 ， 将 value 与 计算 结果 相 加 。 注 意 ， 上 面 
的 例子 中 使 用 了 一 个 字面 量 数字 1， 但 是 这 里 也 可 以 使 用 比较 复杂 
的 值 。 例 如 ， 如 果 有 一 个 集合 ， 其 中 的 内 容 是 各 个 国家 的 销售 数 
据 ， 使 用 下 面 的 代码 就 可 以 得 到 每 个 国家 的 总 收入 : 


> db.sales.aggregate( 
证 








“$group ~ { 
_id" : "$co ountry", 
"totalRevenue" : {"$sum" : "$revenue"} 
es } 
.. }) 
e "$avg" : value 
返回 每 个 分 组 的 平均 值 。 
例如 ， 下 面 的 代码 会 返回 每 个 国家 的 平均 收入 ， 以 及 每 个 国家 的 销 
量 : 
> db.sales.aggregate( 


"$group" : { 


"_id" : "$country", 
"totalRevenue" : {"$avg" : "$revenue"}, 
"numSales™" : {"$sum" 1} 

i } 

:，}) 


3. 极 值 操作 符 (extreme operator) 
下 面 的 四 个 操作 符 可 用 于 得 到 数据 集合 中 的 “边缘 ” 值 。 


。"$max"” : expr 返回 分 组 组 内 的 最 大 值 。 


e "$min" : expr 


返回 分 组 内 的 最 小 值 。 


。 "$first"” : expr 返回 分 组 的 第 一 个 值 ， 忽 上 略 后 面 所 有 值 。 只 有 排 
序 之 后 ， 明 确 知 道 数 据 顺 序 时 这 个 操作 才 有 意义 。 


® "$last" : expr 


与 "$first" 相 反 ， 返 回 分 组 的 最 后 一 个 值 。 


"$max" 和 "$min" 会 但 看 每 一 个 文档 ， 以 便 得 到 极 值 。 因 此 ， 如 果 数 据 是 
无 序 的 ， 这 两 个 操作 符 也 可 以 有 效 工 作 ; 如 果 数 据 是 有 序 的 ， 这 两 个 操 
作 符 束 会 有 些 浪费 。 假 设 有 一 个 存 有 学 生 考试 成 绩 的 数据 集 ， 需 要 找到 
其 中 的 最 高 分 与 最 低 分 : 


> db.scores.aggregate( 











"$group" : { 


"_id" : "$grade", 
"JowestScore™" : {"$min" ; "$score"}, 
"highestScore" : {"$max" : "$score"} 


Se 


另 一 方面 ， 如 果 数 据 集 是 按照 希望 的 字段 排序 过 的 ， 
么 "$first" 和 "$last" 操 作 符 就 会 非常 有 用 。 下 面 的 人 加 与 上 面 的 代码 可 
以 得 到 同样 的 结果 : 


> db.scores.aggregatel( 


"$sort" : {"score" : 1} 


rc 
由 


"$group" : { 
"_id" ' "$grade", 
"JowestScore" : {"$first" : "$score"}, 
"highestScore" : {"$last" : "$score"} 


a 


如 果 数 据 是 排 过 序 的 ， 那 么 $first 和 $1last 会 比 $min 和 $max 效 率 更 高 。 如 
果 不 准 备 对 数据 进行 排序 ， 那 么 直接 使 用 $min 和 smax 会 比 先 排序 再 使 
用 $first 和 $last 效 率 更 高 。 


4. 数组 操作 符 
有 两 个 操作 符 可 以 进行 数组 操作 。 
e "$addToSet" : expr 


如 琳 当 前 数组 中 不 包含 expr ， 那 残 将 它 添加 到 数组 中 。 在 返回 结 
集中 ， 每 个 元 系 最 多 只 出 现 一 次 ， 而 且 元 素 的 顺序 古 不 确定 的 。 








e "$push" : expr 


有 
组 。 


5. 分 组 行为 


有 两 个 操作 符 不 能 用 前 面 介 绍 的 流 式 工作 方式 对 文档 进行 处 

理 ，"$group" 是 其 中 之 一 。 大 部 分 操作 符 的 工作 方式 都 是 流 式 的 ， 只 要 
有 新 文档 进入 ， 就 可 以 对 新 文档 进行 处 理 ， 但 是 "$group" 必 须要 等 收 到 
所 有 的 文档 之 后 ， 才 能 对 文档 进行 分 组 ， 然 后 才能 将 各 个 分 组 发 送 给 管 
道中 的 下 一 个 操作 符 。 这 意味 着 ， 在 分 片 的 情况 下 ，"$group" 会 完 在 每 
个 分 片上 执行 ， 然 后 各 个 分 片上 的 分 组 结果 会 被 发 送 到 mongos 再 进行 最 
和 
行 的 。 


7.2.4 $unwind 








拆 分 unwind》 可 以 将 数组 中 的 每 一 个 值 拆 分 为 单独 的 文档 。 例 如 ， 如 








果 有 一 篇 拥有 多 条 评论 的 博客 文章 ， 可 以 使 用 $unwind 将 每 条 评论 拆 分 
为 一 个 独立 的 文档 : 
> db.blog.findone() 


"_id" : ObjectId("50eeffc4c82a5271290530be")， 


"author™ :; "k", 
"post" : "Hello, worild!", 
"comments" : [ 
"author™" : "mark", 
"date" :; ISODate("2013-01-10T17:52:04.1482Z"), 
"text" :; "Nice post" 
}, 
{ 
"author™ : "bill", 
"date" :; ISODate("2013-01-10T17:52:04.1482Z"), 
"text" :; "I agree" 
} 
] 
} 
> db.blog.aggregate({"$unwind" : "$comments"}) 
"results" : 


"_id" : ObjectId("50eeffc4c82a5271290530be")， 


"author" ke 
"post" :; "Hello, worild!", 
"comments" : { 
"author™" : "mark", 
"date" : ISODate("2013-01-10T17:52:04.148Z" )， 
"text" : "Nice post" 
} 
}, 
{ 
"_id" : ObjectId("50eeffc4c82a5271290530be")， 
"author" 4 > 
"post" :; "Hello, worild!", 
"comments" : { 
"author" : "bill", 
"date" : ISODate("2013-01-10T17:52:04.1482Z"), 
"text" : "I agree" 
} 
} 
]， 
"ok" : 1 








如 末 和 希望 在 查询 中 得 到 特定 的 子 文档 ， 这 个 操作 符 束 会 非常 有 用 : 先 使 
用 "$unwind" 得 到 所 有 子 文档 ， 再 使 用 "$match" 得 到 想 要 的 文档 。 例 如 ， 
如 条 要 得 到 特定 用 户 的 所 有 评论 〈 只 需要 得 到 评论 ， 不 需要 返回 评论 所 
属 的 文章 ) ， 使 用 普通 的 得 询 是 不 可 能 做 到 的 。 但 是 ， 通 过 提取 、 拆 
J 匹配 ， 就 很 容易 了 : 








> db.blog.aggregate({"$project" : {"comments" : "$comments"}}, 
.., {"$unwind" : "$comments"}, 
.. {"$match" : {"comments.author" : "Mark"}}) 





由 于 最 后 得 到 的 结果 仍然 是 一 个 "comments" 子 文档 ， 所 以 你 可 能 希望 再 
做 一 次 投 遇 ， 以 便 让 输出 结果 更 优雅 。 


7.2.5 $sort 
可 以 根据 任何 字段 〈 或 者 多 个 字段 ) 进行 排序 ， 与 在 普通 查询 中 的 语法 
相同 。 如 果 要 对 大 量 的 文档 进行 排序 ， 强 烈 建议 在 管道 的 第 一 阶段 进行 


排序 ， 这 时 的 排序 操作 可 以 使 用 索引 。 人 否则 ， 排 序 过 程 就 会 比较 慢 ， 而 
且 会 占用 大 量 内 存 。 


Bo 
J 














> db.employees.aggregate( 


{ 
， "$project" : { 
有, "compensation™" : { 
， "$add"”: ["$salary", "$bonus"] 
"name" : 1 
.}, 
.1{ 
"$sort" : {"compensation" : -1, "name" : 1} 
}) 





这 个 例子 会 对 员工 排序 ， 最 终 的 结果 是 按照 报酬 从 高 到 低 ， 姓 名 从 A 到 
Z 的 顺序 排列 。 


排序 方向 可 以 是 1〈 升 序 ) 和 -1《〈 降 序 ) 。 

与 前 面 讲 过 的 "$group" 一 样 ，"$sort" 也 是 一 个 无 法 使 用 流 式 工作 方式 的 
操作 符 。"$sort" 也 必须 要 接收 到 所 有 文档 之 后 才能 进行 排序 。 在 分 片 
环境 下 ， 先 在 各 个 分 片上 进行 排序 ， 然 后 将 各 个 分 厂 的 排序 结果 发 送 到 
mongos 做 进一步 处 理 。 

7.2.6 $limit 


$1imit 会 接受 一 个 数字 n， 返 回 结果 集中 的 前 n 个 文档 。 





7.2.7 $skip 


$skip 也 是 接受 一 个 数字 mn， 和 技工 结果 集中 的 前 n 个 文 要 ， 将 剩余 文档 作 
为 结果 人 返回。 在 “普通 ”查询 中 ， 如 果 需 要 跳 过 大 量 的 数据 ， 那 么 这 个 操 
作 符 的 效率 会 很 低 。 在 聚合 中 也 是 如 此 ， 因 为 它 必 须要 先 匹 配 到 所 有 需 
要 跳 过 的 文档 ， 然 后 再 将 这 些 文档 于 莽 。 


7.2.8 ”使 用 管道 


应 该 尽量 在 管道 的 开始 阶段 (执行 "$project"、"$group" 或 

者 "$unwind" 操 作 之 前 ) 束 将 尽 可 能 多 的 文档 和 字段 过 滤 挥 。 管 道 如 果 
不 是 直接 从 原先 的 集合 中 使 用 数据 ， 那 束 无 法 在 筛选 和 排序 中 使 用 索 

和 
5|。 


MongoDB 不 允许 单一 的 聚合 操作 占用 过 多 的 系统 内 存 : 如 果 MongoDB 
发 现 某 个 聚合 操作 占用 了 20% 以 上 的 内 存 ， 这 个 操作 就 会 直接 输出 错 

误 。 允 许 将 输出 结果 利用 管道 放 入 一 个 集合 中 是 为 了 方便 以 后 使 用 (这 
样 可 以 将 所 需 的 内 存 减 至 最 小 ) 。 


如 果 能 够 通过 "$match" 操 作 迅 速 减 小 结果 集 的 大 小 ， 就 可 以 使 用 管道 进 
行 实时 聚合 。 由 于 管道 会 不 断 包 含 更 多 的 文档 ， 会 越 来 越 复杂 ， 上 所 以 几 
乎 不 可 能 实时 得 到 管道 的 操作 结果 。 


7.3 MapReduce 


MapReduce 是 聚合 工具 中 的 明星 ， 它 非常 强大 、 非 常 灵 活 。 有 些 问题 过 
于 复杂 ， 无 法 使 用 聚合 框架 的 查询 语言 来 表达 ， 这 时 可 以 使 用 
MapReduce。MapReduce 使 用 JavaScript 作 为 “查询 语言 >， 因 此 它 能 够 表 
达 任 意 复 杂 的 逻辑 。 然 而 ， 这 种 强大 是 有 代价 的 : MapReduce 非 常 慢 ， 
不 应 该 用 在 实时 的 数据 分 析 中 。 


MapReduce 能 够 在 多 台 服 务 顺 之 间 并 行 执 行 。 它 会 将 一 个 大 问题 分 割 为 
多 个 小 问题 ， 将 各 个 小 问题 发 送 到 不 同 的 机 器 上 ， 每 合 机 喜 只 负责 完成 
一 部 分 工作 。 所 有 机 器 都 完成 时 ， 再 将 这 些 零 俯 的 解决 方案 合并 为 一 个 
完整 的 解决 方案 。 
































MapReduce 需 要 几 个 步骤 。 最 开始 是 映射 “map ) ， 将 操作 映射 到 集合 
中 的 每 个 文档 。 这 个 操作 要 么 “无 作为 ”要么 “产生 一 些 键 和 X 个 值 ”。 
然后 就 是 中 间 环 节 ， 称 作 洗 牌 (shuffle〉， 按 照 键 分 组 ， 并 将 产生 的 键 
值 组 成 列表 放 到 对 应 的 键 中 。 化 简 (reduce〉 则 把 列表 中 的 值 化 简 成 一 
个 单 值 。 这 个 值 被 返回 ， 然 后 接着 进行 洗 脾 ， 直 到 每 个 键 的 列表 只 有 一 
个 值 为 止 ， 这 个 值 也 就 是 最 终结 末 。 


下 面 会 多 举 儿 个 MapReduce 的 例子 ， 这 个 工具 非 第 强大 ， 但 也 有 点 复 


和 人。 
7.3.1 示例 1: 找 出 集合 中 的 所 有 键 


用 MapReduce 来 解决 这 个 问题 有 点 大 材 小 用 ， 不 过 还 是 一 种 了 解 其 机 制 
的 不 错 的 方式 。 要 是 已 经 知道 MapReduce 的 原理 ， 则 直接 跳 到 本 节 最 
后 ， 看 看 MongoDB 中 MapReduce 的 使 用 注意 事项 。 


MongoDB 会 假设 你 的 模式 是 动态 的 ， 所 以 并 不 跟踪 记录 每 个 文档 中 的 

键 。 通 党 找到 集合 中 所 有 文档 所 有 键 的 最 好 方式 就 是 用 MapReduce。 在 
本 例 中 ， 会 记录 每 个 键 出 现 了 多 少 次 。 内 峙 文档 中 的 键 就 不 计算 了 ， 但 
给 map 函 数 做 个 简单 修改 束 能 实现 这 个 功能 


在 映射 环节 ， 我 们 希望 得 到 集合 中 每 个 文档 的 所 有 键 。map 函 数 使 用 特 
别 的 emit 函 数 “ 返 回 ” 要 处 理 的 值 。emit 会 给 MapReduce 一 个 键 《〈 类 似 于 
前 面 $group 所 使 用 的 键 )》 和 一 个 值 。 这 里 用 emit 将 文档 某 个 键 的 计数 
(count) 返回 ({count : 1) 。 我 们 想 为 每 个 键 单独 计数 ， 所 以 为 文 
档 中 的 每 个 键 调 用 一 次 emit。this 就 是 当前 映射 文档 的 引用 : 

> map = function() { 


.. for (var key in this) { 
emit(key, {count : 1}); 
/ 




















这 样 瑟 有 了 许 许 多 多 {fcount : 1} 文档 ， 每 一 个 都 与 集合 中 的 一 个 键 相 
关 。 这 种 由 一 个 或 多 个 {count : 1} 文 档 组 成 的 数组 ， 会 传递 给 reduce 函 
数 。reduce 函 数 有 两 个 参数 ， 一 个 是 key， 也 就 是 emit 返 回 的 第 一 个 
A 由 一 个 或 者 多 个 与 键 对 应 的 {fcount : 二} 文档 
组 成 。 


> reduce = function(key, emits) { 
.，total = 0; 


, for (var i in emits) { 
total += emits[i].count; 


, return {"count" : total}; 


reduce 一 定 要 能 够 在 之 前 的 map 阶 段 或 者 前 一 个 reduce 阶 段 的 结果 上 反复 
执行 。 所 以 reduce 返 回 的 文档 必须 能 作为 reduce 的 第 二 个 参数 的 一 个 元 
素 。 例 如 ，x 键 映射 到 了 3 个 文档 {fcount : 1, id : 1}、f{count : 1, id 

2} 和 和 {fcount : 1 id : 3}， 其 中 id 键 只 用 于 区 分 不 同 的 文档 。 
MongoDB 可 能 会 这 样 调 用 reduce: 





> ri = reduce("x", [{count : 1, id : 1}, {count : 1, id : 2}]) 


{count : 2} 

> r2 = reduce("x", [{count : 1, id : 3}]) 
{count : 1} 

> reduce("x", [ri, r2]) 

{count : 3} 


不 能 认为 第 二 个 参数 总 是 初始 文档 之 一 (比如 {count:1}) 或 者 长 度 回 
定 。reduce 应 该 能 处 理 emit 文 档 和 其 他 reduce 返 回 结果 的 各 种 组 合 。 


总 之 ，MapReduce 函 数 可 能 会 是 下 面 这 样 : 


> mr = db.runCommand({"mapreduce" : "foo", "map" : map, "reduce" : reduce}) 
"result" : "tmp.mr.mapreduce 1266787811 1", 
"timeMillis" : 12, 
"counts" :; { 
"input" : 6 
"emit" : 14 
"output" :; 5 
了 
"Ook" :; true 
} 


MapReduce 返 回 的 文档 包含 很 多 与 操作 有 关 的 元 信息 。 


e "result" : "tmp.mr.mapreduce_ 1266787811_1" 
这 是 存放 MapReduce 结 果 的 集合 名 。 这 是 个 临时 集合 ，MapReduce 
的 连接 关闭 后 它 就 被 目 动 删除 了 。 本 章 稍 后 会 介绍 如 何 指定 一 个 好 
一 点 的 名 字 以 及 将 结果 集合 持久 化 。 








ee "timeMillis" :; 12 


操作 花费 的 时 间 ， 单 位 是 坚 秒 。 


e@e "counts" :; { ， 


这 个 内 藤 文 档 主要 用 作 调试 其 中 包含 3 个 键 。 


o "input”: 6 


发 送 到 map 函 数 的 文档 个 数 。 


o "emit" : 14 


在 map 水 数 中 emit 被 调用 的 次 数 。 


o "output" : 5 


结果 集合 中 的 文档 数量 。 
对 结果 集合 进行 得 询 会 发 现 原 有 集合 的 所 有 键 及 其 计数 : 





> blmr result]. find() 

{ "_id" : "_id", “Value” Se ‘ounE. 6}} 
{ "_id" : "a", "value" : { "count" : 4}} 

{ "_id" "b", "value"” :; { "count" : 2 }} 

{ "_id" "x", "Value"” ; { "count" : 1 } } 

{ "_id" "y", "yalue" a { "count" 1 } } 


ee: id" 对 应 原 集合 中 的 一 个 键 ，"value" 键 的 值 就 


是 reduce 的 最 终结 





7.3.2 “示例 2: 网 页 分 类 


假设 有 个 网 站 ， 和 人们 可 以 提交 其 他 网 页 的 链接 ， 比 如 
reddit (http://www.reddit.com) 。 提 交 者 可 以 给 这 个 链接 添加 标签 ， 表 
胡 诗 题 。 比 如 nolitics。-peek 惑 者 ieanhasetieezburaar。 1 UN MapReduee 
找 出 哪个 主题 最 为 热门 ， 热 门 与 个 由 最 近 的 投票 决定 。 


首先 ， 建 立 一 个 map 函 数 ， 发 出 〈emit) 标签 和 一 个 基于 流行 度 和 新 旧 
程度 的 值 。 


map = function() { 
for (var i in this.tags) { 
var recency = 1/(new Date() - this.date); 
Var Score = recency * this.score; 


emit(this.tags[i], {"urls" : [this.url], "score" : Score ) 


}; 


现在 就 化 简 同 一 个 标签 的 所 有 值 ， 以 得 到 这 个 标签 的 分 数 : 


reduce = function(key, emits) { 
var total = {urls : [], score : 0} 
for (var i in emits) { 
emits[i].urls.forEach(function(url) { 
total.urls.push(url1); 


total.score += emits[i].score; 


return total; 


}; 





最 终 的 集合 包含 每 个 标签 的 URL 列 表 和 表示 该 标签 流行 程度 的 分 数 。 
7.3.3 “MongoDB 和 MapReduce 


前 面 两 个 例子 只 用 到 了 mapreduce、map 和 reduce 键 。 这 3 个 键 是 必需 的 ， 
但 是 MapReduce 命 令 还 有 很 多 可 选 的 键 。 


e "finalize" : function 
可 以 将 reduce 的 结果 发 送 给 这 个 键 ， 这 是 整个 处 理 过 程 的 最 后 一 
步 。 

e "keeptemp" : boolean 


如 琳 为 值 为 true， 那 么 在 连接 关闭 时 会 将 临时 结果 集合 保存 下 来 ， 
否则 不 保存 。 


e "out”: string 
输出 集合 的 名 称 。 如 果 设 置 了 这 选项 ， 系 统 会 自动 设置 keeptemp 
true。 

© "query" : document 


在 发 往 map 函 数 前 ， 先 用 指定 条 件 过 滤 文 档 。 


@ "sort" : document 


在 发 往 map 前 先 给 文档 排序 (与 1imit 一 同 使 用 非常 有 用 )〉。 


e@e "limit" : integer 


发 往 map 沙 数 的 文档 数量 的 上 限 。 


© "scope™" : document 


可 以 在 JavaScript 代 码 中 使 用 的 变量 。 


©e "verbose" : boolean 


是 否 记录 详细 的 服务 器 日 志 。 
1. finalize 函 数 


和 group 命 令 一 样 ，MapReduce 也 可 以 使 用 finalize 消 数 作为 参数 。 它 会 
在 最 后 一 个 reduce 输 出 结果 后 执行 ， 然 后 将 结果 存 到 临时 集合 中 。 


返回 体积 比较 大 的 结果 集 对 MapReduce 不 是 什么 大 不 了 的 事情 ， 因 为 它 








不 像 group 那 样 有 4 MB 的 限制 。 然 而 ， 信 息 总 是 要 传递 出 去 的 ， 通 种 来 
说 ，finalize 是 计算 平均 数 、 裁 勇 数组 、 清 除 多 余 信 息 的 好 时 机 。 
2. 保存 结果 集合 





默认 情况 下 ，Mongo 会 在 执行 MapReduce 时 创建 一 个 临时 集合 ， 集 合 名 
是 系统 选 的 一 个 不 太 常 用 的 名 字 ， 将 "mr"、 执 行 MapReduce 的 集合 名 、 
时 间 礁 以 及 数据 库 作业 ID， 用 “.” 连 成 一 个 字符 串 ， 这 就 是 临时 集合 的 名 
字 。 结 果 产 生 形 如 mr.stuff.18234210220.2 这 样 的 名 字 。MongoDB 会 在 调 
用 的 连接 关闭 时 自动 销毁 这 个 集合 《也 可 以 在 用 完 之 后 手动 删除 ) 。 如 
果 希 望 保存 这 个 集合 ， 就 要 将 keeptemp 选 项 指定 为 true。 


如 果 要 经 常 使 用 这 个 临时 集合 ， 你 可 能 想 给 它 起 个 好 点 的 名 字 。 利 

用 out 选 项 (该 选项 接受 字符 串 作 为 参数 ) 就 可 以 为 临时 集合 指定 一 个 
易 读 易 懂 的 名 字 。 如 果 用 了 out 选 项 ， 束 不 必 指 定 keeptemp : true 了 ， 
因为 指定 out 选 项 时 系统 会 将 keeptemp 设 置 为 true。 即 便 你 取 了 一 个 非常 
好 的 名 字 ，MongoDB 也 会 在 MapReduce 的 中 间 过 程 使 用 自动 生成 的 集合 
名 。 处 理 完 成 后 ， 会 上 自动 将 临时 集合 的 名 字 更 改 为 你 指定 的 集合 名 ， 这 
个 重 命 名 的 过 程 是 原子 性 的 。 也 就 是 说 ， 如 果 多 次 对 同一 个 集合 调用 
MapReduce， 也 不 会 在 操作 中 过 到 集合 不 完整 的 情况 。 


MapReduce 产 生 的 集合 就 是 一 个 普通 的 集合 ， 在 这 个 集合 上 执行 
MapReduce 完 全 没有 问题 ， 或 者 在 前 一 个 MapReduce 的 结果 上 执行 





MapReduce 也 没有 问题 ， 如 此 往复 直到 无 穷 都 没 问题 ! 
3. 对 文档 子 集 执行 MapReduce 


有 时 需要 对 集合 的 一 部 分 执行 MapReduce。 只 需 在 传 给 map 函 数 前 使 用 
查询 对 文档 进行 过 滤 束 好 了 。 


每 个 传递 给 map 函 数 的 文档 都 要 先 反 序列 化 ， 从 BSON 对 象 转换 为 
JavaScript 对 象 ， 这 个 过 程 非常 耗 时 。 如 果 事 先知 道 只 需要 对 集合 的 一 部 
| ee 前 先 对 文档 进行 过 滤 可 以 极 大 地 
Bu 速度 。 可 以 通过 "query"、"1imit" 和 "sort" 等 键 对 文档 进行 过 

1 


"query" 键 的 值 是 一 个 查询 文档 。 通 党 查询 返回 的 结果 会 传递 给 map 函 
数 。 例 如 ， 有 一 个 做 跟踪 分 析 的 应 用 程序 ， 现 在 我 们 需要 上 周 的 总 结 摘 
要 ， 只 要 使 用 如 下 命令 对 上 周 的 文档 执行 MapReduce 就 好 了 : 


> db.runCommand({"mapreduce" : "analytics", "map" : map, "reduce" : reduce, 
"query" : {"date" : {"$gt" : week_ ago}}}) 











A limit 也 可 以 
单独 使 用 ， 用 来 截取 一 部 分 文档 发 送 给 map 函 数 。 


如 果 在 上 个 例子 中 想 分 析 最 近 10 000 个 页 面 的 访问 次 数 〈 而 不 是 
周 的 ) ， 束 可 以 使 用 limit 和 sort: 


> db.runCommand({"mapreduce" : "analytics", "map" : map, "reduce" : reduce, 
"limit" : 10000, "sort" : {"date" : -1}}) 





. 





duery、 limit、 sort 可 以 随意 组 合 ， 但 是 如 果 不 使 用 1imit 的 话 ，sort 束 
不 能 有 效 发 挥 作用 。 


4. 使 用 作用 域 


MapReduce 可 以 为 map、 reduce、finalize 国 数 都 采用 一 种 代码 类 型 。 但 
多 数 语言 里 ， 可 以 指定 传递 代码 的 作用 域 。 然 而 MapReduce 会 忽略 这 个 
作用 域 。 它 有 自己 的 作用 域 键 "scope"， 如 果 想 在 MapReduce 中 使 用 客户 
端的 值 ， 则 必须 使 用 这 个 参数 。 可 以 用 “变量 名 : 值 > 这 样 的 普通 文档 来 





设置 该 选项 ， 然 后 在 map、reduce 和 finalize 闲 数 中 就 能 使 用 了 。 作 用 域 
在 这 些 函数 内 部 是 不 变 的 。 例 如 ， 上 一 节 的 例子 使 用 1/(newpate()  - 
this.date) 计 算 页 面 的 新 旧 程 度 。 可 以 将 当前 日 期 作为 作用 域 的 一 部 分 
传递 进去 : 
> db.runCommand({"mapreduce" : "webpages", "map" : map, "reduce" : reduce, 
"scope" : {now : new Date()}}) 





这 样 ， 在 map 函 数 中 就 能 计算 1/(now - this.date) 了 。 

5. 获得 更 多 的 输出 

还 有 个 用 于 调试 的 详细 输出 选项 。 如 果 想 看 看 MapReduce 的 运行 过 程 ， 
可 以 将 "verbose" 指 定 为 true。 

也 可 以 用 print 把 map、 reduce、finalize 过 程 中 的 信息 输出 到 服务 器 日 


人 心 » 


7.4 聚合 命令 


MongoDB 为 在 集合 上 执行 基本 的 聚合 任务 提供 了 一 些 命令 。 这 些 命令 
在 聚合 框架 出 现 之 前 就 已 经 存在 了 ， 现 在 〈 大 多 数 情 况 下 ) 已 经 被 聚合 
框架 取代 。 然 而 ， 复杂 的 group 操 作 可 能 仍然 需要 使 用 JavaScript， count 
和 distinct 操 作 可 以 被 简化 为 普通 命令 ， 不 需要 使 用 聚合 框架 。 


7.4.1 count 
count 是 最 简单 的 聚合 工具 ， 用 于 返回 集合 中 的 文档 数量 : 


> db.foo.count() 
0 


> db.foo.insert({"x" : 1}) 
> db.foo.count() 
1 


不 论 集 合 有 多 大 ，count 都 会 很 快 返回 总 的 文档 数量 。 
也 可 以 给 count 传 递 一 个 查询 文档 ，Mongo 会 计算 查询 结果 的 数量 : 


> db.foo.insert({"x" : 2}) 


> db.foo.count() 
2 


> db.foo.count({"x" : 1}) 
1 





对 分 页 显示 来 说 总 数 非常 必要 :“ 共 439 个 ， 目 前 显示 0~10 个 ”。 但 是 ， 
增加 查询 条 件 会 使 count 变 慢 。count 可 以 使 用 索引 ， 但 是 索引 并 没有 足 
够 的 元 数据 供 count 使 用 ， 所 以 不 如 直接 使 用 查询 来 得 快 。 


7.4.2 distinct 


distinct 用 来 找 出 给 定 键 的 所 有 不 同 值 。 使 用 时 必须 指定 集合 和 键 。 











> db.runCommand({"distinct" : "people", "key" : "age"}) 
了 1 信人 ya 
假设 集合 中 有 如 下 文档 : 
{"name" : "Ada", "age" : 20} 
{"name" : "Fred", "age" : 35} 
{"name" : "Susan", "age" : 60} 
{"name" : "Andy", "age" : 35} 


如 果 对 "age" 键 使 用 distinct， 会 得 到 所 有 不 同 的 年 龄 : 


> db.runCommand({"distinct" : "people", "key" : "age"}) 
{"values" : [20, 35, 60], "ok"” : 1} 








这 里 还 有 一 个 常见 问题 ， 有 没有 办 法 获得 集合 里 面 所 有 不 同 的 键 呢 ? 
MongoDB 并 没有 直接 提供 这 样 的 功能 ， 但 是 可 以 用 MapReduce 〈 详 见 
7.3710 ES 





7.4.3 group 


使 用 group 可 以 执行 更 复杂 的 聚合 。 先 选 定 分 组 所 依据 的 键 ， 而 后 
MongoDB 就 会 将 集合 依据 选 定 键 的 不 同 值 分 成 春 干 组 。 然 后 可 以 对 
一 个 分 组 内 的 文档 进行 聚合 ， 得 到 一 个 结果 文档 。 


如果 你 熟悉 SQL， 那 么 这 个 group 和 SQL 中 的 GRouP BY 差 





假设 现在 有 个 跟踪 股票 价格 的 站 点 。 从 上 午 10 点 到 下 午 4 点 每 隔 几 分钟 
就 会 更 新 某 只 股票 的 价格 ， 并 保存 在 MongoDB 中 。 现 在 报表 程序 要 获 
得 近 30 天 的 收盘 价 。 用 group 就 可 以 轻松 办 到 。 


股价 集合 中 包含 数 以 干 计 如 下 形式 的 文档 : 





{"'day" : "2010/10/03", "time" : "10/3/2010 03:57:01 GMT-400", "price" : 4.23} 
{"'day" : "2010/10/04", "time" : "10/4/2010 11:28:39 GMT-400", "price" : 4.27} 
{"'day" : "2010/10/03", "time" : "10/3/2010 05:00:23 GMT-400", "price" : 4.10} 
{"'day" : "2010/10/06", "time" : "10/6/2010 05:27:58 GMT-400", "price" : 4.30} 
{"'day" : "2010/10/04", "time" : "10/4/2010 08:34:50 GMT-400", "price" : 4.01} 





> 注意， 由 于 精度 的 问题 ， 实 际 使 用 中 不 要 将 金额 以 浮 点 
数 的 方式 存储 ， 这 个 例子 只 是 为 了 简便 才 这 么 做 。 


0 J 合 每 天 的 最 后 交易 时 间 和 价格 ， 就 像 下 面 
这 样 : 














[ 
{"time" : "10/3/2010 05:00:;23 GMT-400", "price" :; 4.10}, 
{"time" : "10/4/2010 11:28:39 GMT-400", "price" :; 4.27}, 
{"time" : "10/6/2010 05:27:58 GMT-400", "price" :; 4.30} 


先 把 集合 按照 "day" 字 段 进 行 分 组 ， 然 后 在 每 个 分 组 中 查找 "time" 值 最 
大 的 文档 ， 将 其 添加 到 结果 集中 束 完 成 了 。 整 个 过 程 如 下 所 示 : 


> db.runCommand({"group" : { 
.. "Ns" : "stocks", 
"key" . "day", 
, "initial™" : {"time" :; 0}, 


, "$reduce" : function(doc, prev) { 
if (doc.time > prev.time) { 
prev.price = doc,.price,; 
prev.time = doc.time; 


}}}) 
把 这 个 命令 分 解 开 看 看 
e "Ns" :; "stocks" 


指定 要 进行 分 组 的 集合 。 


e "key" : "day" 
指定 文档 分 组 依据 的 键 。 这 里 就 是 "day" 键 。 所 有 "day" 值 相同 的 文 
档 被 分 到 一 组 。 


@ 到 : {"time" : 0} 
一 组 reduce 函 数 调 用 中 的 初始 "time' 值 ， 会 作为 初始 文档 传递 给 
后 卖 过 程 。 每 一 组 的 所 有 成 员 都 会 使 用 这 个 累加 右 ， 所 以 它 的 任何 
变化 都 可 以 保存 下 来 。 


e "$reduce" : function(doc, prev) { ... } 
这 个 函数 会 在 集合 内 的 每 个 文档 上 执行 。 系 统 会 传递 两 个 参数 : 当 
前 文档 和 累加 占 文 档 〈( 本 组 当前 的 者 果 ) 。 本 例 中 ， 想 让 reduce 函 
数 比较 当前 文档 的 时 间 和 累加 器 的 时 间 。 如 果 当 前 文档 的 时 间 更 晚 
一 些 ， 则 将 累加 占 的 日 期 和 价格 疹 换 为 当前 文档 的 值 。 别 忘 了 ， 
一 组 都 有 一 个 独立 的 累加 器 ， 所 以 不 必 担 心 不 同 日 期 的 命令 会 使 用 
同一 个 累加 器 。 


在 问题 一 开始 的 描述 中 ， 融 提 到 只 要 最 近 30 天 的 股价 。 然 而 ， 我 们 在 这 
里 迭代 了 整个 集合 。 这 就 是 要 添加 "condition" 的 原因 ， 因 为 这 样 就 可 
以 只 对 必要 的 文档 进行 处 理 。 


> db.runCcommand({"group" : { 








， "Nns" : "stocks", 
3 mh key" & "day", 
... "initial" : {"time" : 0}, 
, "S$reduce" : function(doc, prev) { 


if (doc.time > prev.time) { 
prev.price = doc.price,; 
prev.time = doc.time; 


}}, 
.. "Condition" : {"day" : {"$gt" :; "2010/09/30"}} 


:. }}) 


有 些 参 考 资 料 提 及 "cond" 键 或 者 "q" 键 ， 其 实 


和 "condition" 键 是 完全 一 样 的 〈 就 是 表达 力 不 
如 "condition" 好 ) 。 


最 后 就 会 返回 一 个 包含 30 个 文档 的 数组 ， 其 实 每 个 文档 都 是 一 个 分 组 。 
每 组 都 包含 分 组 依据 的 键 〈 这 里 就 是 "day" : string) 以 及 这 组 最 终 的 
prev 值 。 如 果 有 的 文档 不 存在 指定 用 于 分 组 的 键 ， 这 些 文 档 会 被 单独 分 
为 一 组 ， 缺 失 的 键 会 使 用 "day : nul1" 这 样 的 形式 。 在 "condition" 中 加 
入 "day" : {"$exists" : true} 就 可 以 排除 不 包含 指定 用 于 分 组 的 键 的 
文档 。group 命 令 同 时 返回 了 用 到 的 文档 总 数 和 "key" 的 不 同 值 数量 : 


> db.runCommand({"group™" : {...}}) 
{ 








"retval" : 


[ 


"day"” : "2010/10/04", 
"time™" : "Mon Oct 04 2010 11:28:39 GMT-0400 (EST)" 
"price" : 4.27 
}, 
], 

count" : 734, 

keys" : 30, 

ok"” :1 

} 
这 里 每 组 的 "price" 都 是 显 式 设置 的 ，"time" 先 由 初始 化 器 设置 ， 然 后 


在 沈 代 中 进行 更 新 。"day" 古 默认 被 加 进去 的 ， 因 为 用 于 分 组 的 键 会 默 
认 加 入 到 每 个 "retval" 内 藤 文 档 中 。 要 是 不 想 在 结果 集中 看 到 这 个 键 ， 
可 以 用 完成 器 将 累加 器 文档 变 为 任何 想 要 的 形态 ， 甚 全 变换 成 非 文 档 
(例如 数字 或 字符 串 )〉。 


1. 使 用 完成 器 
完成 器 (finalizer) 用 于 精简 从 数据 库 传 到 用 户 的 数据 ， 这 个 步骤 非常 


重要 ， 因 为 group 命 令 的 输出 结 采 需要 能 够 通过 单 次 数据 库 啊 应 返回 给 
用 户 。 为 进一步 说 明 ， 这 里 举 个 博客 的 例子 ， 其 中 每 篇 文章 都 有 多 个 标 











签 (tag) 。 现 在 要 找 出 每 天 最 热门 的 标签 。 可 以 (再 一 次 ) 按 天 分 
组 ， 得 到 每 一 个 标签 的 计数 。 就 像 下 面 这 样 : 


> db.posts.group({ 
, "key" : {"day" : true}, 
, "initial" : {"tags"” : 全 人 
, "S$reduce" : function(doc, prev) { 
for (i in doc.tags) { 
if (doc.tags[i] in prev.tags) { 
prev.tags[doc.tags[i]]++; 
} else { 
prev.tags[doc.tags[i]] = 1; 


时 } 
. }}) 


得 到 的 结果 如 下 所 示 : 


[ 
{"day" : "2010/01/12", "tags" : {"nosql" : 4, "winter" : 10, "sledding" : 2}} 
{"day" : "2010/01/13", "tags" : {"soda" : 5, "php” : 2}}, 
{"'day" : "2010/01/14", "tags" : {"python" : 6, "winter" : 4, "nosql": 15}} 

] 


接着 可 以 在 客户 端 找 出 "tags" 文 档 中 出 现 次 数 最 多 的 标签 。 然 而 ， 同 客 
户 端 发 送 每 天 所 有 的 标签 文档 需要 许多 额外 的 开销 一 一 每 天 所 有 的 键 / 
值 对 都 被 传送 给 用 户 ， 而 我 们 需要 的 仅仅 是 一 个 字符 串 。 这 也 就 

是 group 有 一 个 可 选 的 "finalize" 键 的 原因 。"finalize" 可 以 包含 一 个 函 
数 ， 在 每 组 结果 传递 到 客户 问 之 前 调用 一 次 。 可 以 使 用 "finalize" 函 数 
将 不 需要 的 内 容 从 结果 集中 移 除 : 


> db.runcommand({"group" : { 
， "Ns" :; "posts", 
... "key" : {"day" : true}, 
, "initial" : {"tags” : 全 人 
, "S$reduce" : function(doc, prev) { 
for (i in doc.tags) { 
if (doc.tags[i] in prev.tags) { 
prev.tags[doc.tags[i]]++; 
} else { 
prev.tags[doc.tags[i]] = 1; 





: }, 
, "finalize" : function(prev) { 
Var mostPopular = 0; 
for (i in prev.tags) { 
if (prev.tags[i] > mostPopular) { 
prev.tag = i; 
mostPopular = prev.tags[i]; 


delete prev.tags 


sy 


现在 ， 我 们 就 得 到 了 想 要 的 信息 ， 服 务 器 返回 的 内 容 可 能 如 下 : 


[ 


{"'day" : "2010/01/12", "tag" : "winter"}, 
{"'day" : "2010/01/13", "tag" : "soda"}, 
{"'day" : "2010/01/14", "tag" : "nosql"} 


] 


finalize 可 以 对 传递 进来 的 参数 进行 修改 ， 也 可 以 返回 一 个 新 值 。 
2. 将 函数 作为 键 使 用 


有 时 分 组 所 依据 的 条 件 可 能 会 非常 复杂 ， 而 不 是 单个 键 。 比 如 要 使 
用 group 计 算 每 个 类 别 有 多 少 篇 博客 文章 〈 每 篇 文章 只 属于 一 个 类 

别 ) 。 由 于 不 同 作者 的 风格 不 同 ， 填 写 分 类 名 称 时 可 能 有 人 使 用 大 写 也 
有 人 使 用 小 写 。 所 以 ， 如 果 要 是 按 类 别名 来 分 组 ， 最 

后 “MongoDB” 和 “mongodb” 就 是 两 个 完全 不 同 的 组 。 为 了 消除 这 种 大 小 
写 的 影响 ， 就 要 定义 一 个 函数 来 决定 文档 分 组 所 依据 的 键 。 


定义 分 组 函数 束 要 用 到 skeyf 键 (注意 不 是 "key") ， 使 用 "$keyf" 的 
group 命 令 如 下 所 示 : 











> db.posts.group({"ns" : "posts", 
"$keyf" : function(x) { return x.category.toLowerCase(); }, 
.. "initializer" : ... }) 


有 了 "$keyf"， 束 能 依据 各 种 复杂 的 条 件 进行 分 组 了 。 


第 8 章 ”应 用 程序 设计 
本 章 介绍 如 何 设计 应 用 程序 ， 以 便 更 好 地 使 用 MongoDB， 内 容 包 括 : 


。 内 钥 数据 和 引用 数据 之 间 的 权衡 ; 

。 优化 技巧 

。 数据 一 致 性 ， 

。 模式 迁移 ; 

。 不 适合 使 用 MongoDB 作 为 数据 存储 的 场景 。 


8.1 范式 化 与 反 范 式 化 


数据 表示 的 方式 有 很 多 种 ， 其 中 最 重要 的 问题 之 一 就 是 在 多 大 程度 上 对 

数据 进行 范式 化 。 范 式 化 (normalization〉 是 将 数据 分 散 到 多 个 不 同 的 

集合 ， 不 同 集合 之 间 可 以 相互 引用 数据 。 虽 然 很 多 文档 可 以 引用 某 一 块 

数据 ， 但 十 这 块 数据 只 4 存储 在 一 个 集合 中 。 所 以 ， 如 果 要 修改 这 块 数 

据 ， 只 需 修 改 保 存 这 块 数据 的 那 一 个 文档 束 行 了 。 但 是 ，MongoDB 没 

。 (join) 工具 ， 所 以 在 不 同 集合 之 间 执 行 连接 查询 需要 进行 
次 查询。 


反 范 式 化 〈denormalization ) 与 范式 化 相反 : 将 每 个 文档 所 需 的 数据 都 
舱 入 在 文档 内 部 。 每 个 文档 都 拥有 自己 的 数据 副本 ， 而 不 是 所 以 文档 共 
同 引 用 同一 个 数据 副本 。 这 意味 着 ， 如 果 信 息 发 生 了 变化 ， 那 么 所 有 相 
关 文 档 都 需要 进行 更 新 ， 但 是 在 执行 查询 时 ， 只 需要 一 次 查询 ， 就 可 以 
得 到 所 有 数据 。 


决定 何 时 采用 范式 化 何 时 采用 反 范 式 化 是 比较 困难 的 。 范 式 化 能 够 提高 
数据 写 入 速度 ， 反 范式 化 能 够 提高 数据 读 取 速 度 。 需 要 根据 自己 应 用 程 
序 的 实际 需要 仔细 权衡 。 


8.1.1 数据 表示 的 例子 
假设 要 保存 学 生 和 读 程 信息 。 一 种 表示 方式 是 使 用 一 个 students 集 合 


(每 个 学 生 是 一 个 文档 ) 和 一 六 classes 集 合 〈 每 门 课程 是 一 个 文档 ) 。 
然后 用 第 三 个 集合 studentClasses 保 存 学 生 和 课程 之 间 的 联系 。 



































> db.studentCJlasses ,findone({" studentId”: id}) 


"_id" :objectId("512512c1d86041c7dca81915" ) ， 
"studentId" : 0bjectId("”512512a5d86041c7dca81914" ) ， 
"classes" : [ 
ObjectId("512512ced86041c7dca81916")， 
ObjectId("512512dcd86041c7dca81917")， 
ObjectId("512512e6d86041c7dca81918" )， 
ObjectId("512512f0d86041c7dca81919" ) 





如 果 比 较 熟 悉 关 系 型 数据 库 ， 可 能 你 之 前 见 过 这 种 类 型 的 表 连 接 ， 虽 然 
你 的 每 个 结果 文档 中 可 能 只 有 一 个 学 生 和 一 门 谍 程 (而 不 是 一 个 访 

程 "_ id" 列 表 ) 。 将 课程 放 在 数组 中 ， 这 有 点 儿 MongoDB 的 风格 ， 不 过 
Sm 常 不 会 这 么 保存 数据 ， 因 为 要 经 历 很 多 次 查询 才 能 得 到 真实 信 


已 。 


候 t 及 要 找到 一 个 学 生 所 选 的 课程 。 需 要 先 查 找 students 集 合 找 到 学 生 信 

息 ， 然 后 查询 studentClasses 找 到 课程 "_id"， 最 后 再 查询 classes 和 集合 才能 
得 到 想 要 的 信息 。 为 了 找 出 课程 信息 ， 需 要 问 服务 器 请 求 三 次 查询 。 很 
可 能 你 并 不 i 除非 学 生 信 息 和 课 

程 信 息 经 党 发 生变 化 ， 而 且 对 数据 读 取 速度 也 没有 要 求 。 


如 傈 将 谍 程 引用 和 藤 入 在 学 生 文 档 中 ， 就 可 以 节省 一 次 查询 : 


{ 











"_id" : ObjectId("512512a5d86041c7dca81914")， 

"name" : "John Doe", 

"classes" : [ 
ObjectId("512512ced86041c7dca81916")， 
ObjectId("512512dcd86041c7dca81917")， 
ObjectId("512512e6d86041c7dca81918" )， 
ObjectId("512512f0d86041c7dca81919") 


II 其 中 保存 了 John Doe 需 要 上 的 课程 "_id"。 
要 找 出 这 些 诬 各 的 信息 时 ， 就 可 以 使 用 这 些 "_id" 查 询 classes 集 合 。 

这 个 过 程 ? 只 需要 两 次 得 询 。 如 朵 数据 不 需要 随时 访问 也 不 会 随时 发 生变 

化 (< 随时 ” 比 “ 经 常 ”要 求 更 高 )， 那 么 这 种 数据 组 织 方 式 是 非常 好 的 。 


如 果 需 要 进一步 优化 读 取 速度 ， 可 以 将 数据 完全 反 范 式 化 ， 将 课程 信息 
作为 内 和 共 文 档 保 存 到 学 生 文 档 的 "classes" 字 段 中 ， 这 样 只 需要 一 次 查 














询 就 可 以 得 到 学 生 的 课程 信息 了 : 


"_id" : ObjectId("512512a5d86041c7dca81914" ) ， 


"name" : "John Doe", 
"Classes"”: [ 
"class" : "Trigonometry", 
"credits" :; 3, 
"room" : "204" 
}, 
{ 
"class" : "Physics", 
"credits" :; 3, 
"room" : "159" 
}, 
{ 
"class" : "Women in Literature", 
"credits" :; 3, 
"room" : "14b" 
}, 
{ 
"class" : "AP European History", 
"credits" :; 4, 
"room" : "321" 
} 
] 





en 是 只 需要 一 次 查询 就 可 以 得 到 学 生 的 课程 信息 ， 缺 

会 占用 更 多 的 存储 空间 ， 而 且 数 据 同 步 更 困难 。 例 如 ， 如 果 物 理学 
A et i 
档 都 需要 更 新 ， 而 不 只 是 更 新 "Physics" 文 档 。 


最 后 ， 也 可 以 混合 使 用 内 巷 数 据 和 引用 数据 : 创建 一 个 子 文档 数组 用 于 
保存 第 用 信息 ， 需 要 但 询 更 详细 信息 时 通过 引用 找到 实际 的 文档 : 














"_id" : ObjectId("512512a5d86041c7dca81914" ) ， 


"name" : "John Doe", 
"Classes"”: [ 
"_id" : 0bjectId("512512ced86041c7dca81916" ) ， 
"class" : "Trigonometry" 
}, 
{ 
"_id" : ObjectId("512512dcd86041c7dca81917")， 
"class" : "Physics" 
}, 
{ 
"_id" : objectId("512512e6d86041c7dca81918" ) ， 
"class" : "Women in Literature" 
}, 


"” id"” :objectId("512512f0d86041c7dca81919" ) ， 
"class" : "AP European History" 
} 
] 
} 





这 种 方式 也 是 不 错 的 选择 ， 因 为 内 共 的 信息 可 以 随 独 需求 的 变化 进行 修 
改 : 如 果 希 望 在 一 个 页 面 中 包含 更 多 (或 者 更 少 ) 的 信息 ， 就 可 以 将 更 
多 (或 者 更 少 ) 的 信息 放 在 内 钥 文 档 中 。 


需要 考虑 的 男 一 个 重要 问题 是 ， 信 息 更 新 更 频 莹 还 是 信息 读 取 更 频繁 ? 
如 打 这 些 数据 会 定期 更 新 ， 那 么 范式 化 是 比较 好 的 选择 。 如 果 数 据 变 化 
不 频繁 ， 为 了 优化 更 新 效率 而 牺牲 读 取 效 率 就 不 值得 了 。 


例如 ， 教 科 书 上 介绍 范式 化 的 一 个 例子 可 能 是 将 用 户 和 用 户 地 址 保存 在 
不 同 的 集合 中 。 但 是 ， 人 们 几乎 不 会 改变 住址 ， 所 以 不 应 该 为 了 这 种 概 
率 极 小 的 情况 〈 茶 人 改变 了 住址 ) 而 牺牲 每 一 次 查询 的 效率 。 在 这 种 情 
景 下 ， 应 该 将 地 址 内 时 在 用 户 文档 中 。 


如 果 决 定 使 用 内 蔡 文 档 ， 更 新 文档 时 ， 需 要 设置 一 个 定时 任务 〈cron 

job) ， 以 确保 所 做 的 每 次 更 新 都 成 功 更 新 了 所 有 文档 。 例 如 ， 我 们 试 
图 将 更 新 扩散 到 多 个 文档 ， 在 更 新 完 所 有 文档 之 前 ， 服 务 器 骨 演 了。 需 
要 能 够 检测 到 这 种 问题 ， 并 且 重 新 进行 未 完 的 更 新 。 


一 般 来 说， 数据 生成 越 频 系 ， 就 越 不 应 该 将 这 些 数据 内 和 伦 到 其 他 文档 
中 。 如 果 内 购 字 段 或 者 内 内 字 段 数 量 是 无 限 增长 的 ， 那 么 应 该 将 这 些 内 
容 保存 在 单独 的 集合 中 ， 使 用 引用 的 方式 进行 访问 ， 而 不 是 内 巷 到 其 他 
文档 中 。 评 论 列表 或 者 活动 列表 等 信息 应 该 保存 在 单独 的 集合 中 ， 不 应 
该 内 暴 到 其 他 文档 中 。 


最 后 ， 如 果 茶 些 字段 是 文档 数据 的 一 部 分 ， 那 么 需要 将 这 些 字段 内 构 到 
文档 中 。 如 果 在 但 询 文 档 时 经 第 需要 将 茶 个 字段 排除 ， 那 么 这 个 字段 应 
Ps 
旨 导 原则 。 


[1 ND i 
表 8-1 内 髓 数据 与 引用 数据 的 比较 
更 适合 内 髓 更 适合 引 月 
子 文档 较 小 子 文档 较 大 
数据 不 会 定期 改变 数据 经 党 
最 终 数据 一 致 即 可 中 间 阶 段 的 数据 必须 一 臻 















































文档 数据 小 幅 增加 文档 数据 大 幅 增加 
数据 通常 需要 执行 二 次 查询 才能 获得 ”数据 通常 不 包含 在 结果 中 





快速 读 取 快速 写 入 


假如 我 们 有 一 个 用 户 集 合 。 下 面 是 一 些 可 能 需要 的 字段 ， 以 及 它们 是 个 
应 该 内 花 到 用 户 文档 中 。 





。 用户 首选 项 〈account preferences) : 用 户 首 选项 只 与 特定 用 户 相 
关 ， 而 且 很 可 能 需要 与 用 户 文档 内 的 其 他 用 户 信息 一 起 和 查询。 所 以 
用 户 首选 项 应 该 内 伦 到 用 户 文 档 中 。 


。 最 近 活动 (recent activity) : 这 个 字段 取决 于 最 近 活 动 增长 和 变化 
的 频 或 程度 。 如 末 这 是 个 固定 长 度 的 字段 〈 比 如 最 近 的 10 次 活 
动 )， 那 么 应 该 将 这 个 字段 内 骸 到 用 户 文 档 中 。 


好 友 (friends) : 通常 不 应 该 将 好 友信 息 内 骨 到 用 户 文 档 中 ， 人 至少 
不 应 该 将 好 友信 息 完全 内 骨 到 用 户 文 档 中 。 下 节 会 介绍 社交 网 络 应 
用 的 相关 内 容 。 


。 所 有 由 用 户 产 生 的 内 容 不 应 该 内 散在 用 户 文 档 中 。 
8.1.2 ”基数 


一 个 集合 中 包含 的 对 其 他 集合 的 引用 数量 叫做 基数 〈cardinality) 。 第 
见 的 关系 有 一 对 一 、 一 对 多 、 多 对 多 。 假 如 有 一 个 博客 应 用 程序 。 每 篇 
博客 文章 (post) 都 有 一 个 标题 〈titte) ， 这 是 一 个 一 对 一 的 关系 。 每 
个 作者 〈author) 可 以 有 多 篇 文章 ， 这 是 一 个 一 对 多 的 关系 。 每 篇 文章 
可 以 有 多 个 标签 (tag) ， 每 个 标签 可 以 在 多 篇 文章 中 使 用 ， 所 以 这 是 
一 个 多 对 多 的 关系 。 


在 MongoDB 中 ，many〈 多 ) 可 以 被 分 拆 为 两 个 子 分 类 : many (多 ) 和 
few《〈 少 ) 。 假 如 ， 作 者 和 文章 之 间 可 能 是 一 对 少 的 关系 : 每 个 作者 只 
发 表 了 为 数 不 多 的 几 篇 文章 。 博 客 文章 和 标签 可 能 是 多 对 少 的 关系 : 文 
章 数量 实际 上 很 可 能 比 标 签 数 量 多 。 博 客 文章 和 评论 之 间 是 一 对 多 的 关 
系 : 每 篇 文章 都 可 以 拥有 很 多 条 评论 。 

只 要 确定 了 少 与 多 的 关系 ， 就 可 以 比较 容易 地 在 内 磐 数 据 和 引用 数据 之 
间 进 行 权 衡 。 通 溃 来 说 ,“ 少 ”的 关系 使 用 内 花 的 方式 会 比较 好 ,，“ 多 ”的 
关系 使 用 引用 的 方式 比较 好 。 






































8.1.3 好友 、 粉 丝 ， 以 及 其 他 的 麻烦 事项 
杀 近 有 朋友， 远离 敌人 。 


很 多 社交 类 的 应 用 程序 都 需要 链接 人 、 内 容 、 粉 丝 、 好 友 ， 以 及 其 他 一 
些 事物 。 对 于 这 些 高 度 关 联 的 数据 使 用 内 骸 的 形式 还 是 引用 的 形式 不 容 
易 权 衡 。 这 一 节 会 介绍 社交 图 谱 数 据 相 关 的 注意 事项 。 通 常 ， 关 注 、 好 
友 或 者 收藏 可 以 简化 为 一 个 发 布 -订阅 系统 : 一 个 用 户 可 以 订阅 另 一 个 
用 户 相 关 的 通知 。 这 样 ， 有 两 个 基本 操作 需要 比较 高 效 : 如 何 保存 订阅 
者 ， 如 何 将 一 个 事件 通知 给 所 有 订阅 者 。 


比较 常见 的 订阅 实现 方式 有 三 种 。 第 一 种 方式 是 将 内 容 生 产 者 内 骨 在 订 
阅 者 文档 中 : 


{ 








"_id" : ObjectId("51250a5cd86041c7dca8190f")， 

"username" : "batman", 

"email" : "batman@waynetech .com" 

"following" : [ 
ObjectId("51250a72d86041c7dca81910")， 
ObjectId("51250a7ed86041c7dca81936") 

] 

} 


现在 ， 对 于 一 个 给 定 的 用 户 文档 ， 可 以 使 用 形 如 
db.activities.find({"user”" : {"$in" : user["following"]}}) 的 方式 
但 询 该 用 广 司 兴 《 趣 的 所 有 活动 信息 。 但 是 ， 对 于 一 条 刚刚 发 布 的 活动 信 

， 如 果 要 找 出 对 这 条 活动 信息 感 兴趣 的 所 有 用 户 ， 束 不 得 不 查询 所 有 
I 


一 种 方式 是 将 订阅 者 内 嵌 到 生产 生 文 档 中 : 


{ 











9 二 ObjectId( "51250a7ed86041c7dca81936" )， 

"username" : "joker", 

"email" : "joker@mailinator. com" 

"followers" : [ 
ObjectId("512510e8d86041c7dca81912")， 
ObjectId("51250a5cd86041c7dca8190f")， 
ObjectId("512510ffd86041c7dca81910") 

] 

} 








当 这 个 生产 者 新 发 布 一 条 信息 时 ， 我 们 立即 就 可 以 知道 需要 给 哪些 用 户 


发 送 通知 。 这 样 做 的 缺点 是 ， 如 宋 需 要 找到 一 个 用 户 关 注 的 用 户 列 表 ， 
人 
了 相反 。 


同时 ， 这 两 种 方式 都 存在 另 一 个 问题 : 它们 会 使 用 户 文 档 变 得 越 来 越 
大 ， 改 变 也 越 来 越 频繁 。 通 常 ，"following" 和 "followers" 字 上 段 甚至 不 
需要 返回 : 查询 粉丝 列表 有 多 频繁 ? 如 果 用 户 比 较 频 繁 地 关注 某 些 人 或 
者 对 一 些 人 取消 关注 ， 也 会 导致 大 量 的 碎片 。 因 此 ， 最 后 的 方案 对 数据 
进一步 范式 化 ， 将 订阅 信息 保存 在 单独 的 集合 中 ， 以 避免 这 些 缺 点 。 进 
行 这 种 程度 的 范式 化 可 能 有 点 儿 过 了 ， 但 是 对 于 经 常 发 生变 化 而 且 不 需 
要 与 文档 其 他 字段 一 起 返回 的 字段 ， 这 非常 有 用 。 对 "followers" 字 段 
做 这 种 范式 化 是 有 意义 的 。 


用 一 个 集合 来 保存 发 布 者 和 订阅 者 的 关系 ， 其 中 的 文档 结构 可 能 如 下 所 
ES 











{ 
"_id" : 0bjectId("51250a7ed86041c7dca81936" )，// 被 关注 者 的 "_id" 
"followers" : 
ObjectId("512510e8d86041c7dca81912" ) ， 
ObjectId("51250a5cd86041c7dca8199f" ) ， 
ObjectId("512510ffd86041c7dca81910") 
] 
} 


这 样 可 以 使 用 户 文 档 比较 精简 ， 但 是 需要 额外 的 查询 才能 得 到 粉丝 列 
表 。 由 于 "followers" 数 组 的 大 小 会 经 常 及 生变 化 ， 所 以 可 以 在 这 个 集 
合 上 启用 "usePowerof2Ssizes"， 以 保证 users 集 合 尽 可 能 小 。 如 果 将 
followers 集 合 保存 在 另 一 个 数据 库 中 ， 也 可 以 在 不 过 多 影响 users 集 合 的 
前 提 下 对 其 进行 压缩 。 


应 对 威 尔 : 惠 顿 “17 效应 


1 威 尔 : 惠 顿 (Wil Wheaton) : 美国 演员 ， 曾 出 演 过 《星际 迷航 》， 并 在 《生活 大 爆炸 》 中 出 演 Sheldon 的 冤家 对 头 。 一 一 译 者 注 


不 定 使 用 什么 样 的 策略 ， 内 髓 字段 只 能 在 子 文档 或 者 引用 数量 不 是 特别 
大 的 情况 下 有 效 发 挥 作用 。 对 于 比较 有 名 的 用 户 ， 可 能 会 导致 用 于 保存 
粉丝 列表 的 文档 溢出 。 对 于 这 种 情况 的 一 种 解决 方案 古 在 必要 时 使 

用 “连续 的 ”文档 。 例 如 : 


> db.users.find({"username" : "wil"}) 








{ 
"_id" : i 


"usernamen : "WwW 
"email" : i com", 
tbe" D [ 


ObjectId("512528ced86041c7dca8191e" )， 
ObjectId("5126510dd86041c7dca81924") 


] 

"followers" : [ 
ObjectId("512528a0d86041c7dca8191b")， 
ObjectId("512528a2d86041c7dca8191c" )， 
ObjectId("512528a3d86041c7dca8191d" )， 


] 


rc 


"_id" : ObjectId("512528ced86041c7dca8191e" )， 

"followers" : [ 
ObjectId("512528f1d86041c7dca8191f")， 
ObjectId("512528f6d86041c7dca81920")， 
ObjectId("512528f8d86041c7dca81921" )， 


] 


rc 


"_id" : ObjectId("5126510dd86041c7dca81924")， 

"followers" : [ 
ObjectId("512673e1d86041c7dca81925")， 
ObjectId("512650efd86041c7dca81922")， 
ObjectId("512650fdd86041c7dca81923")， 


对 于 这 种 情况 ， 需 要 在 应 用 程序 中 添加 从 "tbc" (to be continued) 数组 
中 取 数 据 的 相关 人 逻辑。 


8.2 ”优化 数据 操作 


如 果 要 优化 应 用 程序 ， 首 先 必须 知道 对 读 写 性 能 进行 评估 以 便 找到 性 能 

瓶颈 对 谋取 操作 的 过 化 通常 包 招 正 靖 使 用 索引 ， 以 及 尺 上 和 E 将 所 需 信 

入 用 在 此 个 文档 中 返 加 。 对 写 入 操作 的 优化 通常 包括 减少 索引 数量 以 及 
高 更 新 效率 。 


经 常 需 要 在 写 入 效率 更 高 的 模式 与 读 取 效率 更 局 的 模式 之 间 权 衡 ， 所 以 

须要 知道 哪 种 操作 对 你 的 应 用 程序 更 重要 。 这 里 的 影响 因 妹 并 不 只 是 
读 取 和 写 入 的 重要 性 ， 也 包括 读 取 和 写 入 操作 的 频 索 程度 : 如 果 对 你 的 
应 用 程序 来 说 写 入 操作 更 加 重要 ， 但 是 为 了 执行 一 次 写 入 操作 需要 进行 
1000 次 读 取 操作 ， 那 么 还 是 应 该 首先 优化 读 取 速 度 。 

















8.2.1 优化 文档 增长 


更 新 数据 时 ， 需 要 明确 更 新 古 否 会 导致 文件 体积 增长 ， 以 及 增长 程度 。 
如 采 增 长 程度 是 可 预知 的 ， 可 以 为 文档 预 留 足够 的 增长 空间 ， 这 样 可 以 
避免 文档 移动 ， 可 以 提高 号 入 速度 。 检 查 一 下 填充 因 了 于 : 如 果 它 大 约 是 
1.3 或 者 更 大 ， 可 以 考虑 手动 填充 。 


如 果 要 对 文档 进行 手动 填充 ， 可 以 在 创建 文档 时 创建 一 个 占 空间 比较 大 
的 字段 ， 文 件 创建 成 功 之 后 再 将 这 个 字段 移 除 。 这 样 束 提前 为 文档 分 配 
0 个 餐馆 评论 的 集合 ， 其 中 的 文档 如 
下 所 示 : 














{ 
"_id" : ObjectId(), 
"restaurant™" : "Le Cirque" 
"review" : "Hamburgers were overpriced." 
"userId" : ObjectId(), 
"tags" : [] 
} 











"tags" 字 上 段 会 随 着 用 户 不 断 添加 标签 而 增长 ， 应 用 程序 可 能 经 常 需要 执 
行 这 样 的 更 新 操作 : 


> db.reviews.update({"_id" : id}, 
.. {"$push" : {"tags" : {"$each" :; ["French", "fine dining", "hamburgers"]}}}}) 


如 末 知 道 "tags" 通 秆 不 会 超过 100 字 和 节 ， 可 以 手工 为 文档 留 出 足够 的 填 
充 空间 ， 这 样 可 以 避免 更 新 文档 时 发 生 文档 移动 。 如 果 不 为 文档 预 留 增 
长 空间 ， 那 么 每 当 "tags" 字 上段 增 长 时 ， 文 档 就 会 被 移动 。 可 以 在 文档 最 
后 添加 一 个 大 字段 (随便 用 什么 名 字 〉 进行 手 工 填充 ， 如 下 所 示 : 

{ 


"_id" : ObjectId(), 
"restaurant" : "Le Cirque" 





"review" : "Hamburgers were overpriced." 
"userId" : ObjectId(), 

reags [ly 

"garbage™ 3 VD er Re 生生 让 全 全 全 "+ 


可 以 在 第 一 次 插入 文档 时 这 么 做 ， 也 可 以 在 upsert 时 使 


用 "$setonInsert" 创 建 这 个 字段 。 





更 新 文档 时 ， 总 是 用 "$unset" 移 除 "garbage" 字 上 段 。 


> db.reviews.update({"_id" : id}, 
... {"$push" :; {"tags" : {"$each" : ["French", "fine dining", "hamburgers"]}}}, 
.. "$unset" : {"garbage" : true}}) 


如 果 "garbage" 字 上 段 存 在 ，"$unset" 操 作 符 可 以 将 其 移 除 ， 如果 这 个 字段 
不 存在 ，"$unset" 操 作 符 什么 也 不 做 。 


如 果 文 档 中 有 一 个 字段 需要 增长 ， 应 该 尽 可 能 将 这 个 字段 放 在 文档 最 后 
的 位 置 C"garbage" 之 前 ) 。 这 样 可 以 稍微 提高 一 点 点 的 性 能 ， 因为 如 
果 "tags" 字 段 发 生 了 增长 ，MongoDB 不 需要 重 写 "tags" 后 面 的 字段 。 


8.2.2 删除 旧 数 据 


有 些 数据 只 在 特定 时 间 内 有 用 : 几 周 或 者 几 个 月 之 后 ， 保 留 这 些 数据 只 
古 在 浪费 存储 空间 。 有 三 种 常见 的 方式 用 于 删除 旧 数 据 : 使 用 固定 集 
合 ， 使 用 TITL 和 集合 ， 或 者 定期 删除 集合 。 


最 简单 的 方式 是 使 用 固定 集合 : 将 集合 大 小 设 为 一 个 比较 大 的 值 ， 当 集 
合 被 填 满 时 ， 将 旧 数 据 从 固定 集合 中 挤 出 。 但 是 ， 固 定 集 合 会 对 操作 造 
成 一 些 限 制 ， 而 且 在 密集 插入 数据 时 会 大 大 降低 数据 在 固定 集合 内 的 存 
活期 。6.1 节 中 有 详细 介绍 。 


第 二 种 方式 是 使 用 TIL 集 合 ，TTL 集 合 可 以 更 精确 地 控制 删除 文档 的 时 
机 。 但 是 ， 对 于 写 入 量 非常 大 的 集合 来 说 这 种 方式 可 能 不 够 快 : 它 通 过 
遍历 TIL 索 引 来 删除 文档 。 如 果 TIL 集 合 能 够 承受 足够 的 写 入 量 ， 使 用 
TIL 集 合 删除 旧 数 据 可 能 是 最 简单 的 方式 了 。6.2 节 有 详细 介绍 。 


最 后 一 种 方法 是 使 用 多 个 集合 : 例如 ， 每 个 月 的 文档 单独 使 用 一 个 集 
合 。 每 当月 份 变 更 时 ， 应 用 程序 束 开 始 使 用 新 月 份 的 集合 (初始 是 个 空 
集合 ) ， 碍 询 时 要 对 当前 月 份 和 之 前 月 份 的 集合 都 进行 得 询 。 对 于 6 个 
月 之 前 创建 的 集合 ， 可 以 直接 将 其 删除 。 这 种 方式 可 以 应 对 任意 的 操作 
量 ， 但 是 对 于 应 用 程序 来 说 会 比较 复杂 ， 因 为 需要 使 用 动态 的 集合 名 称 
(或 者 数据 库 名 称 ) ， 也 要 动态 处 理 对 多 个 数据 库 的 查询 。 


8.3 数据 库 和 集合 的 设计 























确定 了 文档 结构 之 后 ， 接 下 来 束 要 确定 使 用 什么 样 的 集合 或 者 数据 库 来 
保存 文档 。 通 党 这 个 过 程 很 简单 ， 但 是 有 一 些 指 导 原 则 需要 注意 。 


通常 ， 具 有 相近 模式 的 文档 应 该 放 在 相同 的 集合 中 。MongoDB 通 常 不 
允许 使 用 多 个 集合 进行 数据 组 合 ， 如 果 有 些 文档 需要 进行 集中 查询 或 者 
聚合 ， 那 么 这 些 文档 应 该 放 在 同一 个 大 集合 里 。 例 如 ， 可 能 有 一 些 结构 
a 0 
集合 内 。 


对 于 数据 库 来 说 ， 最 大 的 问题 是 锁 机 制 每 个 数据 库 上 都 有 一 个 读 / 写 
锁 ) 和 存储 。 每 一 个 数据 库 ， 在 磁 各 上 都 位 于 自己 的 文件 中 (通常 也 在 
单独 的 文件 夹 中 ) ， 这 意味 着 ， 可 以 让 不 同 的 数据 库 位 于 不 同 的 磁盘 分 
卷 。 所 以 ， 你 可 能 希望 数据 库 内 的 所 有 项 目 都 拥有 相近 的 “质量 ”、 相 近 
的 访问 模式 ， 或 者 相近 的 访问 量 。 


假设 我 们 有 一 个 拥有 多 个 组 件 的 应 用 程序 : 日 志 组 件 会 创建 大 量 的 日 志 
数据 《日 志 数 据 不 是 很 重要 ) ， 还 要 有 一 个 用 户 集合 ， 以 及 几 个 用 于 保 
存 用 户 生成 数据 的 集合 。 用 户 集 合 是 最 有 价值 的 ;保证 用 户 数 据 安全 是 
非常 重要 的 。 社 交 活 动 数据 需要 放 在 一 个 大 流量 集合 中 ， 它 不 如 用 户 集 
合 重 要 ， 但 是 比 日 志 集 合 重 要 。 这 个 集合 主要 用 于 用 户 通 知 ， 所 以 几乎 
是 一 个 只 插入 不 更 新 的 集合 。 


按照 重要 性 进行 拆 分 ， 最 后 可 能 得 到 三 个 数据 库 : logs (日 志 ) 、 
activities (活动 )、users (用 户 ) 。 这 样 做 的 好 处 是 ， 最 重要 的 数据 集 
合 的 数据 量 可 能 最 小 (例如 ， 用 户 集合 内 的 数据 通常 不 如 日 志 集 合 
多 ) 。 将 所 有 数据 集 都 存储 在 SSD 上 你 可 能 负担 不 起 ， 但 是 也 许可 以 只 
将 用 户 集 合 存储 在 SSD 上 。 或 者 对 用 户 集合 使 用 RAID10， 而 对 日 志和 
活动 集合 使 用 RAID0。 


注意 ， 使 用 多 个 数据 库 时 有 一 些 限 制 MongoDB 通 常 不 允许 直接 将 数 
据 从 一 个 数据 库 移 到 男 一 个 数据 库 。 例 如 ， 无 法 将 在 A 数据 库 上 执行 

MapReduce 的 结果 保存 到 B 数 据 库 中 ， 也 无 法 使 用 renamecollection 命 令 
将 集合 从 一 个 数据 库 移动 到 另 一 个 数据 库 〈 比 如 ， 可 以 将 foo.bar 重 命名 
为 foo.baz， 但 是 不 能 将 foo.bar 重 命名 为 foo2.baz) 。 


8.4 一致 性 管理 












































必须 要 明确 知道 应 用 程序 的 读 取 对 数据 一 致 性 的 要 求 有 多 局 。 
MongoDB 文 持 多 种 不 同 的 一 致 性 级 别 ， 从 每 次 都 读 到 完全 正确 的 最 新 
数据 到 读 取 不 确定 新 旧 程度 的 数据 。 如 果 要 得 到 最 近 一 年 内 的 活动 信息 
报表 ， 可 能 只 要 求 最 近 这 些 天 的 数据 完全 准确 。 相 反 ， 如 采 要 做 实时 区 
易 ， 可 能 需要 即时 读 到 最 新 的 数据 。 


要 理解 如 何 获得 这 些 不 同 级 别 的 一 致 性 ， 首 先 要 了 解 MongoDB 的 内 部 
机 制 。 服 务 器 为 每 个 数据 库 连 接 维护 一 个 请 求 队 列 。 客 忆 端 每 次 及 来 的 
新 请 求 都 会 添加 到 队列 的 来 尾 。 入 队 之 后 ， 这 个 连接 上 的 请 求 会 依次 得 
到 处 理 。 一 个 连接 拥有 一 个 一 致 的 数据 库 视 图 ， 可 以 总 是 读 取 到 这 个 连 
接 最 新 写 入 的 数据 。 


注意 ， 每 个 列队 只 对 应 一 个 连接 : 如 果 打 开 两 个 shell， 连 接 到 相同 的 数 
据 库 ， 这 时 就 存在 两 个 不 同 的 连接 。 如 果 在 其 中 一 个 shell 中 执行 插入 操 
作 ， 紧 接 关 在 为 一 个 shell 中 执行 查询 操作 ， 新 插入 的 数据 可 能 不 会 出 现 
在 合 询 结果 中 。 但 是 ， 如 果 是 在 同一 个 shell 中 ， 插 入 一 个 文档 然后 执行 
查询 ， 一 定 能 够 查询 到 刚 插入 的 文档 。 想 手动 重 现 这 种 问题 是 很 困难 

的 ， 但 是 在 一 个 频 索 执行 插入 和 碍 询 的 服务 器 上 很 可 能 会 发 生 。 经 常会 
有 一 些 开 发 者 使 用 一 个 线程 插入 数据 ， 然 后 使 用 另 一 个 线程 检查 数据 是 
人 否 成 功 插入 。 片 刻 之 后 ， 刚 刚 的 数据 看 上 去 好 像 并 没有 成 功 插入 ， 但 是 
这 些 数据 忽然 就 出 现 了 。 


使 用 Ruby、Python 和 Java 驱 动 程序 时 尤其 要 注意 这 个 问题 ， 因 为 这 三 种 
语言 的 驱动 程序 都 使 用 了 连接 池 (connection pool) 。 为 了 提高 效率 ， 
这 些 驱 动 程序 会 建立 多 个 与 服务 器 之 间 的 连接 (也 就 是 一 个 连接 池 ) ， 
将 请 求 通过 不 同 的 连接 发 送 到 服务 器 。 但 是 它们 都 有 各 自 的 机 制 来 保证 
一 系列 相关 的 请 求 会 被 同一 个 连接 处 理 。 关 于 不 同 语言 连接 池 的 详细 文 
档 ， 可 以 查看 MongoDB 

Wiki (http://dochub.mongodb.org/drivers/connections) 。 


当 癌 副本 集 备 份 节 点 (参见 第 11 章 ) 发 送 读 取 请 求 时 ， 就 更 贱 烦 了 。 副 
本 集 的 数据 可 能 不 是 最 新 的 ， 这 会 导致 读 取 到 的 数据 是 一 秒 钟 之 前 或 者 
一 分 钟 之 前 的 ， 甚 至 是 几 个 小 时 之 前 的 。 人 处理 这 个 问题 的 方式 有 好 几 
种 ， 最 简单 的 一 种 是 将 所 有 读 取 请 求 都 发 送 到 主 数据 库 ， 这 样 便 可 以 每 
次 都 得 到 最 新 最 准确 的 数据 。 也 可 以 设置 一 个 脚本 自动 检测 副本 集 是 否 
落后 于 主 数据 库 ， 如 果 落 后 ， 就 将 副本 集 设 为 维护 状态 。 如 果 你 的 副本 
集 比较 小 ， 可 以 使 用 "w" : setsize 执 行 安 全 写 入 ， 如 果 getLastError 没 
能 成 功 返 回 ， 可 将 后 续 的 读 取 请 求 发 送 到 主 数据 库 。 
































8.5 ”模式 迁移 


随 着 应 用 程序 使 用 时 间 的 增长 和 需求 变化 ， 数 据 库 模式 可 能 也 需要 相应 
地 增长 和 改变 。 有 几 种 方式 可 以 实现 这 个 需求 ， 不 管 使 用 哪 种 方法 ， 都 
要 小 心 保 存 该 程序 使 用 过 的 每 一 个 模式 。 


最 简单 的 方式 就 是 在 应 用 程序 需要 时 改进 数据 库 模 式 ， 以 确保 应 用 程序 
能 够 文 持 所 有 旧版 的 模式 〈 比 如， 要 能 够 从 容 处 理 菜 些 字段 的 缺失 ， 或 
者 是 东 些 字段 在 不 同 版 本 中 的 不 同类 型 ) 。 这 种 方式 可 能 会 导致 混乱 ， 
尤其 是 不 同 版 本 的 模式 之 间 有 冲突 时 。 例 如 ， 版 本 A 要 求 有 "mobile" 字 
段 ， 但 版 本 B 没 有 "mobile" 字 段 ， 却 需要 有 男 外 一 个 不 同 字 段 ， 同 时 还 
有 个 版 本 C 认 为 "mobile" 字 段 是 可 选 的 。 为 了 满足 这 样 的 需求 可 能 会 逐 
步 把 代码 变 得 一 团 粳 。 


另 一 种 稍微 结构 化 一 点 儿 的 解决 方案 是 在 每 个 文档 中 包含 一 

个 "version" 字 7 段 (或 者 "v") ， 使 用 这 个 字段 来 决定 应 用 程序 能 够 接受 
的 文档 结构 。 这 种 方式 对 模式 的 要 求 更 加 严格 : 文档 必须 对 多 个 版 本 都 
有 效 。 这 仍然 需要 文 持 各 种 旧版 本 。 


最 后 一 种 方式 是 ， 当 模式 发 生变 化 时 ， 将 数据 进行 迁移 。 通 常 来 说 这 并 
不 是 个 好 主意 : MongoDB 人 允许 使 用 动态 模式 ， 以 避免 执行 迁移 ， 因 为 

执行 迁移 会 对 系统 造成 很 大 的 压力 。 但 是 ， 如 果 决 定 改 变 每 一 个 文档 ， 

需要 确保 所 有 文档 都 被 成 功 更 新 。MongoDB 中 的 多 文档 更 新 并 不 是 原 

子 的 原子 是 指 要 么 所 有 文档 都 成 功 更 新 ， 要 么 一 个 也 不 更 新 )。 如 果 
MongoDB 在 迁移 过 程 中 骨 溃 ， 最 终 的 结果 可 能 会 是 只 有 一 部 分 文档 被 

更 新 ， 还 有 一 部 分 没有 更 新 。 


8.6 不 适合 使 用 MongoDB 的 场景 


尽管 MongoDB 是 一 个 通用 型 数据 库 ， 可 以 用 在 大 部 分 应 用 程序 中 ， 但 
它 并 非 万 能 的 。MongoDB 不 文 持 下 面 这 些 应 用 场景 。 






































。 MongoDB 不 支持 事务 (transaction) ， 对 事务 性 有 要 求 的 应 用 程序 
不 建议 使 用 MongoDB。 可 以 用 几 种 方式 实现 简单 的 类 事务 
(transaction-like) 语义 ， 尤 其 是 操作 单个 文档 时 ， 但 是 数据 库 并 
不 能 强制 要 求 用 户 这 么 做 。 因 此 ， 你 可 以 让 所 有 客户 端 都 遵守 你 设 
定 的 某 种 语义 规范 《〈 比 如 ， 执 行 任何 操作 之 前 都 要 先 检查 锁 ) ， 但 








是 无 法 阻挡 不 知情 的 用 户 或 恶意 用 户 把 事情 变 成 一 团 精 。 


在 多 个 不 同 维度 上 对 不 同类 型 的 数据 进行 连接 ， 这 是 关系 型 数据 库 
善 长 的 事情 。MongoDB 不 支持 这 么 做 ， 以 后 也 很 可 能 不 文 持 。 


最 后 ， 如 果 你 使 用 的 工具 不 支持 MongoDB， 那 可 能 你 应 该 选择 一 
个 关系 型 数据 库 ， 而 不 是 MongoDB。 有 很 多 工具 并 不 文 持 
MongoDB， 从 SQLAI1 - chemy 到 Wordpress。 支 持 MongoDB 的 工具 
已 经 越 来 越 多 了 ， 但 是 目前 来 说 仍然 不 如 关系 型 数据 库 多 。 





第 9 章 ”创建 副本 集 


本 章 介 绍 MongoDB 的 复制 系统 : 副本 集 (replica set) 。 本 章 主 要 内 容 
如 下 : 


副本 集 的 概念 ; 
副本 集 的 创建 方法 ; 
副本 集成 员 的 可 用 选项 。 


9.1 复制 简介 


从 第 1 章 开 始 ， 我 们 使 用 的 一 直 是 单 台 服务 器 ， 一 个 mongod 服 务 咒 进 

程 。 如 果 只 是 用 作 学 习 和 开 及 ， 这 是 可 以 的 ， 但 是 如 果 用 到 生产 环境 

中 ， 风 险 会 很 高 ， 如 果 服 务 费 朋 江 了 或 者 不 可 访问 了 怎么 办 ? 数据 库 至 
少 会 有 一 段 时 间 不 可 用 。 如 果 是 人 硬件 出 了 问题 ， 可 能 需要 将 数据 转移 到 
男 一 个 机 右上 。 在 最 坏 的 情况 下 ， 人 磁盘 或 者 网 络 问题 可 能 会 导致 数据 损 
坏 或 者 数据 不 可 访问 。 


使 用 复制 可 以 将 数据 副本 保存 到 多 台 服 务 嚣 上， 建议 在 所 有 的 生产 环境 
中 都 要 使 用 。 使 用 MongoDB 的 复制 功能 ， 即 使 一 台 或 多 台 服 务 右 出 
错 ， 也 可 以 保证 应 用 程序 正常 运行 和 数据 安全 。 


在 MongoDB 中 ， 创 建 一 个 副本 集 之 后 束 可 以 使 用 复制 功能 了 。 副 本 集 
是 一 组 服务 器 ， 其 中 有 一 个 主 服务 器 (primary) ， 用 于 处 理 客户 端 请 
求 : 还 有 多 个 备份 服务 器 〈secondary) ， 用 于 保存 主 服 务 器 的 数据 副 
人 人 备份 服务 器 会 自动 将 其 中 一 个 成 员 升 级 为 新 
] 主 oe 


使 用 复制 功能 时 ， 如 果 有 一 台 服 务 占 宕 机 了 ， 仍 然 可 以 从 副本 集 的 其 他 
服务 器 上 访问 数据 。 如 果 服 务 器 上 的 数据 损坏 或 者 不 可 访问 ， 可 以 从 副 
本 集 的 茶 个 成 员 中 创建 一 份 新 的 数据 副本 。 

本 章 主 要 介绍 副本 集 以 及 如 何在 系统 上 建立 复制 功能 。 


9.2 ”建立 副本 集 











为 了 快速 入 门 ， 本 节 会 指导 你 在 本 地 机 器 上 建立 一 个 包含 三 个 成 员 的 副 
本 集 。 这 些 设置 不 适用 于 生产 环境 ， 但 是 可 以 让 你 熟悉 复制 功能 以 及 相 
关 的 各 种 配置 。 








-Sy 








,未 节 例子 中 的 数据 保存 在 /data/db 目 录 下 ， 应 该 在 运行 
这 旦 代码 之 前 确保 这 个 目录 存在 ， 而 且 当前 用 户 对 这 个 目录 拥有 与 
又 限 。 


使 用 - -nodb 选 项 启动 一 个 mongo shell， 这 样 可 以 启动 shell 但 是 不 连接 到 
任何 mongod: 


$ mongo --nodb 


通过 执行 下 面 的 命令 就 可 以 创建 一 个 副本 集 : 


> replicaSet = new ReplSetTest({"nodes" : 3}) 


这 行 代码 可 以 创建 一 个 包含 三 个 服务 器 的 副本 集 : 一 个 主 服务 器 和 两 个 
0 0 0 
日 ZJ : 


> // 启动 3 个 mongod 进 程 

> replicaSset.startSet() 
> 
> // 配置 复制 功能 

> replicaSet.initiate() 









































现在 已 经 有 了 3 个 mongod 进 程 ， 分 别 运 行 在 31000、31001 和 31002 端 
口 。 这 3 个 进程 都 会 把 各 自 的 日 志 输 出 到 当前 shell 中 ， 这 会 让 人 很 泥 
乱 。 所 以 先 把 这 个 shell 放 在 一 边 ， 再 开局 一 个 新 的 shell 用 于 工作 吧 。 


在 第 二 个 shell 中 ， 连 接 到 运行 在 31000 端 口 的 mongod: 





> conn1 = new Mongo("localhost:31000") 
connection to localhost:31000 
testReplSet :PRIMARY> 


testReplSet :PRIMARY> primaryDB = conni.getDB("test") 
test 


注意 ， 当 连接 到 一 个 副本 集成 员 时 ， 提 示 符 变 成 
了 "testReplSet:PRIMARY>"。 其 中 "PRIMARY" 是 当前 成 员 的 状 
态 ，"testReplSet" 是 副本 集 的 标识 符 。"testReplSet" 是 ReplsetTest 使 


用 的 默认 名 称 ， 之 后 会 讲述 如 何 自 定义 副本 集 标识 符 。 
为 了 简洁 和 可 读 性 ， 之 后 的 例子 会 使 用 ">" 代 


替 "testReplSet :PRIMARY>" 提 示 符 。 


在 连接 到 主 节 点 的 连接 上 执行 isMaster 命 令 ， 可 以 看 到 副本 集 的 状态 : 


> primaryDB.isMaster() 


"setName" : "testReplSset", 
"ismaster" : true, 
"secondary" : false, 
"hosts" :; [ 


"wooster:31000", 
"wooster:31002", 
"wooster:31001" 


[8 

"primary" : "wooster:31000", 

"me" : "wooster:31000", 

"maxBsonObjectSize" : 16777216, 

"localTime" : ISODate("2012-09-28T15:48:11.0252Z"), 
"ok" :; 1 





isMaster 返 回 的 字段 有 点 儿 多 ， 其 中 有 一 个 很 重要 的 字段 指明 下 .区 十 全 
个 主 节点 ("ismaster" : true) ， 副 本 集中 还 有 一 个 hosts 列 表 。 





RS 
eA DD， Pe 、 
心 、 如 果 服 务 器 返回 内 容 "ismaster'" : “ false， 也 是 正常 


的 。 可 以 从 "primary" 字 段 获知 主 节 点 是 哪 一 个 ， 然 后 重新 连接 到 
主 节 点 所 在 的 主机 /端口 束 可 以 了 。 


既然 已 经 连接 到 主 节 点 ， 就 做 一 些 写 入 操作 看 看 会 有 什么 发 生 吧 ! 首 
先 ， 插 入 1000 个 文档 : 


> for (i=0; i<1000; i++) { primaryDB.coll.insert({count: i}) } 
六 

> // 检查 集合 的 文档 数量 ， 确 保 真 的 插入 成 功 了 

> primaryDB.coll.count() 

1000 














检查 其 中 一 个 副本 集成 员 ， 验 证 一 下 其 中 是 否 有 刚刚 写 入 的 那些 文档 的 
副本 。 可 以 连接 到 任意 一 个 备份 节 反 : 


> conn2 = new Mongo("localhost:31001") 
connection to localhost:31001 

> secondaryDB = conn2.getDB("test") 
test 


备份 节点 可 能 会 落后 于 主 节 点 ， 可 能 没有 最 新 写 入 的 数据 ， 所 以 备份 贡 
点 在 默认 情况 下 会 拒绝 读 取 请 求 ， 以 防止 应 用 程序 意外 拿 到 过 期 的 数 
据 。 因 此 ， 如 宋 在 备份 节点 上 做 查询 ， 可 能 会 得 到 一 个 错误 提示 ， 说 当 
前 节点 不 是 主 节点 。 





> secondaryDB.coll.find() 
error: { "$err" : "not master and slaveok=false", "code" : 13435 } 


这 是 为 了 保护 应 用 程序 ， 以 免 意外 连接 到 备份 节点 ， 读 取 到 过 期 数据 。 
如 宁 和 希望 从 备份 节点 读 取 数据 ， 需 要 设置 “从 备份 节点 读 取 数据 没有 问 
题 ” 标 识 ， 如 下 所 示 : 


> conn2.setSlaveOok() 


注意 ，slaveok 是 对 连接 (例子 中 是 conn2) 设置 的 ， 不 是 对 数据 库 
(secondaryDB) 设置 的 。 


现在 就 可 以 从 这 个 备份 节点 中 读 取 数据 了 。 使 用 普通 的 碍 询 : 


> secondaryDB.coll.find() 

{ "_id" : ObjectId("5037cac65f3257931833902b"), "count" :; 0 } 
{ "_id" : ObjectId("5037cac65f3257931833902c"), "count" :; 1 } 
{ "_id" : ObjectId("5037cac65f3257931833902d"), "count" :; 2 } 
{ 
{ 
{ 


"_id" : ObjectId("5037cac65f3257931833903c")， "count" :; 17 } 
"_id" : ObjectId("5037cac65f3257931833903d"),， "count" :; 18 } 
"_id" : ObjectId("5037cac65f3257931833903e"),， "count" :; 19 } 
Type "it" for more 
> 


> secondaryDB.coll.count() 


1000 


可 以 看 到 刚刚 写 入 的 所 有 文档 都 出 现在 备份 节点 中 了 。 
现在 ， 试 着 在 上 执行 写 入 操作 : 


> SecondaryDB.col1.insert({t" count"”: 1001}) 


> secondaryDB.runCommand({"getLastError" : 1}) 
"err" : "not master", 
"code" : 10058, 
"nu 90， 
"lastop" : Timestamp(0, 0), 
"connectionId" :; 5, 
"ok" :; 1 
} 


可 以 看 到 ， 不 能 对 备份 节点 执行 写 操 作 。 备 份 节点 只 通过 复制 功能 写 入 
数据 ， 不 接受 客户 端的 写 入 请 求 。 
有 一 个 很 有 意思 的 功能 你 应 该 试 一 下 : 目 动 故障 转移 (automatic 


failover) 。 如 果 主 节点 挂 了 ， 其 中 一 个 备份 节点 会 自动 选举 为 主 节点 。 
为 了 验证 这 个 功能 ， 先 关 掉 主 节 点 : 


> primaryDB.adminCcommand({" shutdown"”: 1}) 


在 备份 节点 上 执行 isMaster， 看 看 新 的 主 节 点 是 哪 一 个 : 


> secondaryDB.isMaster() 


返回 的 内 容 如 下 所 示 : 


{ 
"setName" : "testReplSset", 
"ismaster" : true, 
"secondary" : false, 
"hosts" :; [ 


"wooster:31001", 
"wooster:31000", 
"wooster :31002" 
], 
"primary" : "wooster:31001", 
"me" : "wooster:31001", 
"maxBsonObjectSize" : 16777216, 
"localTime" : ISODate("2012-09-28T16:52:07.9752Z"), 





新 的 主 节 点 也 可 以 是 其 他 服务 器 。 第 一 个 检测 到 主 节 点 挂 了 的 备份 贡 损 
会 成 为 新 的 主 节 点 。 现 在 可 以 同 新 的 主 节点 发 送 写 入 请 求 了 。 


isMaster 是 一 个 非常 老 的 命令 了 ， 那 时 副本 集 还 没有 出 现 ，MongoDB 只 
支持 主 从 复制 (master-slave replication) 。 所 以 它 与 副本 集 的 术语 有 些 
不 一 致 ， isMaster 中 的 主 生 后 (master) 与 副本 集中 的 主 节 点 
Cprimary) 是 等 同 的 ， 从 节点 〈slave) 则 相当 于 备份 节点 


(secondary) 。 


在 副本 集 上 完成 这 些 操作 之 后 ， 从 第 一 个 shell 中 将 其 关闭 。 这 个 shell 中 
现在 应 该 充满 了 大 量 的 副本 集成 员 输 出 日 志 ， 敲 几 次 Enter 键 之 后 就 可 以 
看 到 命令 提示 符 了 。 可 以 执行 下 面 的 命令 关闭 副本 集 : 


> replicaSset.stopset() 





es 完成 了 创建 副本 集 、 使 用 副本 集 和 关闭 副本 集 的 操 
有 几 个 关键 的 概念 需要 注意 。 


。 和 客户 端 在 单 合 服务 器 上 可 以 执行 的 请 求 ， 都 可 以 发 送 到 主 节 点 执行 
〈 读 、 写 、 执 行 命 令 、 创 建 索 引 等 ) 。 

。 客 户 端 不 能 在 备份 节点 上 执行 号 操作 。 

。 默认 情况 下 ， 客 户 问 不 能 从 备份 节点 中 读 取 数据 。 在 备份 节点 上 显 
ee 客户 端 束 可 以 从 备份 节点 中 该 取 数 据 


理解 这 些 基本 知识 之 后 ， 本 章 剩 余 的 部 分 是 集中 讲述 在 各 种 实际 情况 下 
应 该 如 何 配置 副本 集 。 记 住 ， 如 果 和 希望 在 实际 中 看 看 某 个 配置 或 者 选项 
的 效果 ， 随 时 可 以 回 到 ReplSetTest.。 

9.3 配置 副本 集 


在 实际 的 部 署 中 ， 需 要 在 多 台 机 器 之 间 建 立 复制 功能 。 本 节 会 完整 建立 

















一 个 真实 场景 下 的 副本 集 ， 你 在 自己 的 应 用 程序 中 可 以 直接 使 用 。 


假设 你 有 一 个 运行 在 server-1:27017 上 的 单个 nongod 实 例 ， 其 中 已 经 有 
一 些 数据 《〈 如 果 数 据 库 中 现在 没有 数据 也 没关系 ， 只 是 数据 目录 会 为 衬 
。 首 先 要 为 副本 集 选 定 一 个 名 字 ， 名 字 可 以 是 任意 的 UTF-8 字 符 


选 好 名 称 之 后 ， 使 用 - -replset name 选 项 重启 server-1。 例 如 : 


$ mongod --replSet spock -f mongod.conf --fork 








现在 ， 使 用 同样 的 replset 和 标示 符 〈(spock) 再 启动 两 个 mongod 服 务 器 
作为 副本 集中 的 其 他 成 员 : 


$ ssh server-2 

server-2$ mongod --replSet spock -f mongod.conf --fork 
server-2$ exit 

$ 

$ ssh server-3 

server-3$ mongod --replSet spock -f mongod.conf --fork 
server-3$ exit 





只 有 第 一 个 副本 集成 员 拥 有 数据 ， 其 他 成 员 的 数据 目录 都 是 空 的 。 只 要 
将 后 两 个 成 员 添 加 到 副本 集中 ， 它 们 就 会 目 动 元 隆 第 一 个 成 员 的 数据 。 


将 replset 选 项 添加 到 每 个 成 员 各 有 目的 mongod.conf 文 件 中 ， 以 后 局 动 
时 就 会 目 动 使 用 这 个 选项 。 


现在 应 该 有 3 个 分 别 运行 在 不 同 服务 器 上 的 mongod 实 例 了 。 但 是 ， 每 个 
mongod 痢 个 知道 有 其 他 mongod 存 人 在。 为 了 让 每 个 mongod 能 够 知 违 彼此 
的 存在 ， 需 要 创建 一 个 配置 文件 ， 在 配置 文件 中 列 出 每 一 个 成 员 ， 并 且 
将 配置 文件 发 送 给 server-1， 然 后 server-1 会 负责 将 配置 文件 传播 给 其 
他 成 员 。 


首先 创建 配置 文件 。 在 shell 中 ， 创 建 一 个 如 下 所 示 的 文档 : 


> config = { 
mh id" : "spock", 
"members" : [ 
{"_id" : 0, "host" : "server-1:27017"}, 





{"_id" : 1, "host" : "server-2:27017"}, 
{"_id" : 2, "host" : "server-3:27017"} 


这 个 配置 文档 中 有 几 个 重要 的 部 分 。" id" 字 段 的 值 融 是 司 动 时 从 命令 
行 传递 进来 的 副本 集 名 称 〈 在 本 例 中 古 "spock") 。 一 定 要 保证 这 个 名 
称 与 启动 时 传 入 的 名 称 一 致 。 


这 个 文档 的 剩余 部 分 是 一 个 副本 集成 员 数 组 。 其 中 每 个 元 素 痢 需要 两 个 
字段 : 一 个 唯一 的 数值 类 型 的 "_id" 字 段 ， 和 一 个 主机 名 《将 例子 中 的 
主机 名 蔡 换 为 你 目 己 实 际 使 用 的 主机 地 址 ) 。 


这 个 config 对 象 就 是 副本 集 的 配置 ， 现 在 需要 将 其 发 送 给 其 中 一 个 副本 
集成 员 。 为 此 ， 连 接 到 一 个 有 数据 的 服务 器 (server-1:27617) ， 使 
用 config 对 象 对 副本 集 进行 初始 化 : 














// 连接 到 server-1 
db = (new Mongo("server-1:27017")).getDB("test") 
/ 





/ 初始 化 副本 集 


rs.initiate(config) 





info" : "Config now saved locally. Should come online in about a minute.", 
k" :1 


server-1 会 解析 这 个 配置 对 象 ， 然 后 同 其 他 成 员 发 送 消息 ， 提 醒 它 们 使 
用 新 的 配置 。 所 有 成 员 都 配置 完成 之 后 ， 它 们 会 自动 选 出 一 个 主 节 点 ， 
然后 束 可 以 正常 处 理 读 写 请 求 了 。 








可惜， 无 法 将 单机 服务 器 转换 为 副本 集 ， 除 非 停机 重启 
并 进行 初始 化 。 即 使 只 有 一 个 服务 器 ， 可 能 你 也 想 将 它 配 置 为 一 个 
只 有 一 个 成 员 的 副本 集 。 有 了 这 样 一 个 副本 集 之 后 ， 继 续 添加 更 多 
的 成 员 时 束 不 需要 停机 了 。 


如 打下 在 创建 一 个 全 新 的 副本 集 ， 可 以 将 配置 文件 及 送 给 副本 集 的 任何 
一 个 成 员 。 如 果 副 本 集中 己 经 有 一 个 有 数据 的 成 员 ， 那 残 必 须 将 配置 对 
象 及 送 给 这 个 拥有 数据 的 成 员 。 如 果 拥 有 数据 的 成 员 不 止 一 个 ， 那 么 就 


无 法 初始 化 副本 集 。 





& 必须 使 用 mongo shell 来 配置 副本 集 。 没 有 其 他 方法 可 以 
基于 文件 对 副本 集 进 行 配置 。 


9.3.1 rs 辅助 函数 

注意 上 面 的 rs.initiate() 命 令 中 的 rs。rs 是 一 个 全 局 变量 ， 其 中 包含 与 
复制 相关 的 辅助 函数 〈 可 以 执行 rs.help() 查 看 可 用 的 辅助 函数 ) 。 这 
些 函 数 大 多 只 是 数据 库 命 令 的 包装 器 。 例 如 ， 下 面 的 数据 库 命令 


与 rs. initiate(config) 是 等 价 的 : 





> db.adminCommand({"replSetInitiate" : config}) 


对 辅助 函数 和 底层 的 数据 库 命令 都 做 些 了 解 是 非常 好 的 ， 有 时 直接 使 用 
数据 库 命令 比 使 用 辅助 函数 要 简单 。 


9.3.2 ”网 络 注意 事项 


副本 集 内 的 每 个 成 员 都 必须 能 够 连接 到 其 他 所 有 成 员 《〈 包 括 上 自身 ) 。 如 
打 遇 到 茶 些 成 员 不 能 到 达 其 他 运行 中 成 员 的 错误 ， 惑 需要 更 改 网 络 配置 
以 便 各 个 成 员 能 够 相互 连通 。 


另外 ， 副 本 集 的 配置 中 不 应 该 使 用 localhost 作 为 主机 名 。 如 果 所 有 副本 

集成 员 都 运行 在 同一 台 机 器 上 ， 那 么 localhost 可 以 被 正确 解析 ， 但 是 运 

行 在 一 台 机 器 上 的 副本 集 意义 不 大 ; 如 果 副 本 集 是 运行 在 多 台 机 器 上 

的 ， 那 么 localhost 吏 无 法 被 解析 为 正确 的 主机 名 。MongoDB 人 允许 副本 集 

的 所 有 成 员 都 运行 在 同一 台 机 器 上 ， 这 样 可 以 方便 在 本 地 测试 ， 但 是 如 

果 在 配置 中 混用 localhost 和 非 1ocalhost 主 机 名 的 话 ，MongoDB 会 给 出 
洼 


警告 。 


9.4 修改 副本 集 配置 
可 以 随时 修改 副本 集 的 配置 可 以 添加 或 者 删除 成 员 ， 也 可 以 修改 已 有 








的 成 员 。 很 多 常用 操作 都 有 对 应 的 shell 辅 助 函 数 ， 比 如 ， 可 以 使 
用 rs.add 为 副本 集 添加 新 成 员 : 


> rs.add("server-4:27017") 


类 似 地 ， 也 可 以 从 副本 集中 删除 成 员 : 


> rs.remove("server-1:27017") 

Fri Sep 28 16:44:46 DBClientCursor::init call() failed 

Fri Sep 28 16:44:46 query failed : admin.$cmd { replSetReconfig: { 
_id: "testReplSet", version: 2, members: [ { _id: 0, host: "ubuntu:31000" }, 
{ _id: 2, host: "ubuntu:31002" } ] } } to: localhost:31000 

Fri Sep 28 16:44:46 Error: error doing query: 
failed src/mongo/shell/collection.js:155 

Fri Sep 28 16:44:46 trying reconnect to localhost:31000 

Fri Sep 28 16:44:46 reconnect localhost:31000 ok 


注意 ， 删 除 成 员 时 《或 者 是 除 添 加 成 员 之 外 的 其 他 改变 副本 集 配 置 的 行 
为 ) ， 会 在 shell 中 得 到 很 多 无 法 连接 数据 库 的 错误 信息 。 这 是 正常 的 ， 

这 实际 上 说 明 配 置 修改 成 功 了 。 重 新 配置 副本 集 时 ， 作 为 重新 配置 过 程 
的 最 后 一 步 ， 主 节点 会 天 闭 所 有 连接 。 因 此 ，shell 中 的 连接 会 短暂 断 

开 ， 然 后 重新 目 动 建立 连接 。 


重新 配置 副本 集 时 ， 主 节点 需要 先 退 化 为 普通 的 备份 节点 ， 以 便 接 受 新 
的 配置 ， 然 后 会 恢复 。 要 注意 ， 重 新 配置 副本 集 之 后 会 ， 副 本 集中 会 暂 
时 没有 主 节点 ， 之 后 会 一 切 恢复 正常 。 

可 以 在 shell 中 执行 rs .config() 来 查看 配置 修改 是 人 否 成 功 。 这 个 命令 可 
打印 出 副本 集 当 前 使 用 的 配置 信息 : 


> rs.config() 








N= 


"_id" : "testReplSsSet", 
"version" : 2, 
"members" : [ 
mm id" 9 1 
RY 于 r 
"host" :; "server-2:27017" 
外 
{ 


"_id" : 2, 
"host" : "server-3:27017" 


"_id" : 3, 
"host" : "server-4:27017" 


每 次 修改 副本 集 配置 时 ，"version" 字 段 都 会 自 增 ， 它 的 初始 值 为 1。 
除了 对 副本 集 添 加 或 者 删除 成 员 ， 也 可 以 修改 现 有 的 成 员 。 为 了 修改 副 
本 集成 员 ， 可 以 在 shell 中 创建 新 的 配置 文档 ， 然 后 调用 rs.reconfig。 假 
设 有 如 下 所 示 的 配置 : 


> rs.config() 








"_id" : "testReplSsSet", 
"version" : 2, 
"members" : [ 
{ 
"_id" : 0, 
"host" : "server-1:27017" 
}, 
{ 
Oh oy 
"host" :; "10.1.1.123:27017" 
}, 
{ 
Td 2 
"host" : "server-3:27017" 
} 





其 中 "_iq" 为 1 的 成 员 地 址 用 IP 而 不 是 主机 名 表示 ， 需 要 将 其 改 为 主机 名 
0 
又 : 


> Var config = rs,config 
> config.members[1].host = "server-2:27017" 


现在 配置 文件 修改 完成 了 ， 需 要 使 用 rs.reconfig 辅 助 函数 将 新 的 配置 
文件 发 送 给 数据 库 : 


> rs.reconfig(config) 


对 于 复杂 的 数据 集 配置 修改 ，rs.reconfig 通 常 比 rs.add 和 rs.remove 更 
有 用 ， 比 如 修改 成 员 配 置 或 者 是 一 次 性 添加 或 者 删除 多 个 成 员 。 可 以 使 
用 这 个 命令 做 任何 合法 的 副本 集 配置 修改 : 只 需 创 建 想 要 的 配置 文档 然 





后 将 其 传 给 rs， reconfig。 
9.5 ”设计 副本 集 


为 了 自 E 够 设计 目 己 的 副本 集 ， 有 一 些 特定 的 副本 集 相 关 概 念 需 要 熟悉 。 
下 一 章 会 详细 讲述 这 些 内 容 。 副 本 集中 很 重要 的 一 个 概念 是 “大 多 
数 ”(majority〉: 选择 主 节 点 时 需要 由 大 多 数 决 定 ， 主 节点 只 有 在 得 到 
大 多 数 支持 时 才能 继 纪 实 作 为 主 节点 ， 写 操作 被 复制 到 大 多 数 成 员 时 这 个 
2 这 里 的 大 多 数 被 定义 为 “副本 中 一 半 以 上 的 成 员 ”， 
0 表 9-1 所 不 。 


表 9-1 怎样 才 算 大 多 数 


副本 集中 Wa 总 数 ” 副 本 集中 的 大 多 数 














2 
3 
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注意 ， 如 果 副 本 集中 有 些 成 员 挂 了 或 者 是 不 可 用 ， 并 不 会 影响 “大 多 
数 "。 因 为 “大 多 数 ” 是 基于 副本 集 的 配置 来 计算 的 。 


假设 有 一 个 包含 5 个 成 员 的 副本 集 ， 其 中 3 个 成 员 不 可 用 ， 仍 然 有 2 个 可 
以 正常 工作 ， 如 图 9-1 所 示 。 和 剩余 的 2 个 成 员 已 经 无 法 达到 副本 集 “ 大 多 

数 ” 的 要 求 〈 在 这 个 例子 中 ， 0 ‘大 多 数 ”) ， 所 以 它 
们 无 法 选举 主 三 把 。 如 果 这 两 个 成 员 中 有 一 个 是 主 节操 ， 妆 它 注意 到 它 - 
无 法 得 到 “大 多 数 ?成 员 文 持 时 ， 筑 会 从 宇 节 点 二 进位 ， 几 秒 钟 之 后 ， 

个 副本 集中 会 包含 2 个 备份 节点 和 3 个 不 可 达成 员 。 


上 上 mwmwNbND 











图 9-1 由 于 副本 集中 只 有 少数 成 员 可 用 ， 所 有 成 员 都 会 变 为 备份 节点 


可 能 会 有 很 多 人 和 觉得 这 样 的 规则 弱 焊 了 : 为 什么 剩余 的 两 个 成 员 不 能 
举 出 主 市 反 呢 ?问题 在 于 ，3 个 不 可 达 的 成 员 并 不 一 定 是 真 的 挂 了 ， 可 
能 只 是 由 于 网 络 问题 造成 不 可 达 ， 如 图 9-2 所 示 。 在 这 种 情况 下 ， 左 边 
的 3 个 成 员 可 以 选举 出 一 个 主 节点 ， 因 为 3 个 成 员 可 以 达到 副本 集成 员 的 
大 多 数 〈 总 共 5 个 成 员 ) 。 








DO DC 








图 9-2 ”对 于 成 员 来 说 ， 左 边 的 服务 器 会 觉得 右边 的 服务 器 挂 了 ， 右 边 
的 服务 器 也 会 党 得 左边 的 服务 器 挂 了 


在 这 种 情况 下 ， 我 们 不 希望 两 边 的 网 络 各 自选 举 出 一 个 主 节 点 : 那样 的 
话 副 本 集束 会 拥有 两 个 主 节点 了 ! 两 个 主 贡 点 都 可 以 写 入 数据 ， 这 样 整 
个 副本 集 的 数据 就 会 发 生 混 乱 。 只 有 达到 “大 多 数 ” 的 情况 下 才能 选举 或 
者 维持 主 节 点 ， 这 样 要 求 是 为 了 避免 出 现 多 个 主 节点 。 


通常 只 能 有 一 个 主 币 点， 这 对 于 副本 集 的 配置 是 很 重要 的 。 例 如 ， 对 于 
上 面 描述 的 5 个 成 员 来 说 ， 如 果 1、2、3 位 于 同一 个 数据 中 心 ， 而 4、5 位 
于 男 一 个 数据 中 心 。 这 样 ， 在 第 1 个 数据 中 心里 ， 几 乎 总 是 可 以 满足 “大 
多 数 ” 这 个 条 件 ( 这 样 就 可 以 比较 容易 地 判断 出 很 可 能 是 数据 中 心 之 间 
的 网 络 错误 ， 而 不 是 数据 中 心 内 部 的 错误 ) 。 

一 种 常见 的 设置 是 使 用 2 个 成 员 的 副本 集 〈“ 这 通常 不 是 你 想 要 的 ) : 一 
个 主 布 把 和 一 个 备份 节点 。 假 如 其 中 一 个 成 员 不 可 用 ， 男 一 个 成 员 束 看 
不 到 它 了 ， 如 图 9-3 所 示 。 在 这 种 情况 下 ， 网 络 任何 一 并 都 无 法 达到 “大 
多 数 ” 的 条 件 ， 所 以 这 个 副本 集会 退化 为 拥有 两 个 备份 节点 (没有 主 节 
点 ) 的 副本 集 。 因 此 ， 通 常 不 建议 使 用 这 样 的 配置 。 


图 9-3 ”如 果 成 员 总 数 是 偶数 ， 成 员 平 均 分 配 到 不 同 的 网 络 中 ， 任 何 一 
边 都 无 法 满足 “大 多 数 ” 的 条 件 


下 面 是 两 种 推荐 的 配置 方式 。 


























。 将 “大 多 数 ” 成 员 放 在 同一 个 数据 中 心 ， 如 图 9-2 所 示 。 如 果 有 一 个 
主 数据 中 心 ， 而 且 你 希望 副本 集 的 主 节 点 总 是 位 于 主 数据 中 心 的 
话 ， 这 样 的 配置 会 比较 好 。 只 要 主 数据 中 心 能 够 正 向 运转， 就 会 有 
一 个 主 节点 。 但 是 ， 如 果 主 数据 中 心 不 可 用 了 ， 那 么 备份 数据 中 心 
的 成 员 无 法 选举 出 主 节 点 。 











。 在 两 个 数据 中 心 各 目 放 置 数量 相 等 的 成 员 ， 在 第 三 个 地 方 放 置 一 个 
用 于 决定 胜 负 的 副本 集成 员 。 如 果 两 个 数据 中 心 同等 重要 ， 那 么 这 
种 配置 会 比较 好 。 因 为 任意 一 个 数据 中 心 的 服务 器 都 可 以 找到 万 一 
人 

方 。 


更 复杂 的 需求 需要 使 用 不 同 的 配置 ， 一 定 要 考虑 清楚 ， 出 现 不 利 情况 
时 ， 副 本 集 要 如 何 达 到 “大 多 数 ” 的 要 求 。 


如 末 MongoDB 的 一 个 副本 集 可 以 拥有 多 个 主 节 点 ， 上 和 面 这 些 复杂 问题 
束 迎 为 而 解 了 。 但 是 ， 多 个 主 节 点 会 带 来 其 他 的 复杂 性 。 拥 有 两 个 主 市 
点 的 情况 下 ， 就 需要 处 理 写 入 冲突 例如，A 在 第 一 个 主 节点 上 更 新 了 
一 个 文档 ， 而 B 在 力 一 个 主 市 尽 上 删除 了 这 个 文档 〉。 在 支持 多 线程 写 
入 的 系统 中 有 两 种 常见 的 冲突 处 理 方式 : 手工 解决 冲突 或 者 是 让 系统 任 
选 一 个 作为 “局 家 ”。 但 是 这 两 种 方式 对 于 开发 者 来 说 都 不 容易 实现 ， 因 
为 无 法 确保 写 入 的 数据 不 会 被 其 他 市 点 修改 。 因 此 ，MongoDB 选 择 只 
文 持 单 一 主 节 点。 这 样 可 以 使 开发 更 容易 ， 但 是 当 副 本 集 被 设 为 只 读 
时 ， 将 导致 程序 暂时 无 法 写 入 数据 。 


选举 机 制 


当 一 个 备份 节点 无 法 与 主 节点 连通 时 ， 它 就 会 联系 并 请 求 其 他 的 副本 集 
成 员 将 自己 选举 为 主 节点 。 其 他 成 员 会 做 几 项 理性 的 检查 : 自 对 是否 能 
够 与 主 市 点 连通 ? 和 希望 被 选举 为 主 节 点 的 备份 节点 的 数据 是 否 最 新 ? 有 
没有 其 他 更 高 优先 级 的 成 员 可 以 被 选举 为 主 节 点 ? 


如 果 要 求 被 选举 为 主 节 点 的 成 员 能 够 得 到 副本 集中 “大 多 数 ?成 员 的 投 
宗 ， 它 束 会 成 为 主 布 点 。 即 使 < 大 多 数 ” 成 员 中 只 有 一 个 否决 了 本 次 选 
举 ， 选 举 束 会 取消 。 如 果 成 员 肥 现任 何 原因 ， 表 明 当 前 希望 成 为 主 市 皮 
的 成 员 不 应 该 成 为 主 节 点 ， 那 么 它 就 会 否决 此 次 选举 。 

在 日 志 中 可 以 看 到 得 囚 数 为 比较 大 的 负数 的 情况 ， 因 为 一 张 否 决 穴 相 当 
于 10 000 张 赞成 票 。 如 果 东 个 成 员 投 赞成 紧 ， 妃 一 个 成 员 投 否 决 票 ， 那 
么 驶 可 以 在 消 妃 中 看 到 选举 结果 为 -9999 或 者 是 比较 相近 的 负数 值 。 


Wed Jun 20 17:44:02 [rsMgr] replSet info electSelf 1 
Wed Jun 20 17:44:02 [rsMgr] replSet couldn't elect self, only received -9999 vote: 





















































如 采 有 两 个 成 员 投了 否决 肾 ， 一 个 成 员 投了 赞成 时， 那么 选举 结果 束 
是 -19999， 依 次 类 推 。 这 些 消 息 是 很 正常 的 ， 不 必 担 心 。 


希望 成 为 主 节点 的 成 员 (候选 人 )〉 必须 使 用 复制 将 自己 的 数据 更 新 为 最 
新 ， 副 本 集中 的 其 他 成 员 会 对 此 进行 检查 。 复 制 操作 是 严格 按照 时 间 排 
序 的 ， 所 以 候选 人 的 最 后 一 条 操作 要 比 它 能 连通 的 其 他 所 有 成 员 更 晚 
《或 者 与 其 他 成 员 相等 ) 。 


假设 候选 人 执行 的 最 后 一 个 复制 操作 是 123。 它 能 连通 的 其 他 成 员 中 有 
一 个 的 最 后 复制 操作 是 124， 那 么 这 个 成 员 就 会 否决 候选 人 的 选举 。 这 
时 候选 人 会 继续 进行 数据 同步 ， 等 它 同步 到 124 时 ， 它 会 重新 请 求 选举 
《如 果 那 时 整个 副本 集中 仍然 没有 主 节点 的 话 ) 。 在 新 一 轮 的 选举 中 ， 
假如 候选 和 没有 其 他 个 合 规 之 处 ， 之 前 合 决 它 的 成 员 束 会 为 所 投资 成 


假如 候选 人 得 到 了 “大 多 数 ” 的 赞成 时， 它 就 会 成 为 主 节 点 。 


还 有 一 所 需要 注意 : 每 个 成 员 都 只 能 要 求 日 己 补 选举 为 主 三 点 。 简 单 起 
见 ， 不 能 推荐 其 他 成 员 极 选举 为 主 节 点， 只 能 为 申请 成 为 主 节 点 的 候选 


人 投票 。 
9.6 成 员 配 置 选 项 


到 目前 为 止 ， 我 们 建立 的 副本 集中 所 有 成 员 都 拥有 同样 的 配置 。 但 是 ， 
有 时 我 们 并 不 希望 每 个 成 员 都 完全 一 样 。 你 可 能 希望 让 茶 个 成 员 拥 有 优 
先 成 为 主 贡 点 的 权力 ， 或 者 是 让 茶 个 成 员 对 客户 问 不 可 见 ， 这 样 便 不 会 
有 读 写 请 求 发 送 给 它 。 在 副本 集 配置 的 子 文档 中 可 以 为 每 个 成 员 指定 这 
些 选 项 《甚至 更 多 选项 ) 。 本 市 介绍 可 以 对 成 员 使 用 的 选项 。 


9.6.1 选举 仲裁 者 


上 面 的 例子 显示 了 有 共有 两 个 成 员 的 副本 集 在 “大 多 数 ” 有 要求 上 的 缺点 。 但 
是 ， 很 多 人 的 应 用 程序 使 用 量 比较 小 ， 并 不 想 保 存 三 份 数据 副本 。 两 份 
副本 已 经 足够 了 ， 保 存 第 三 份 副 本 的 话 纯粹 是 浪费 人 力 、 物 力 和 财力 。 


对 于 这 种 部 绪 ，MongoDB 文 持 一 种 特殊 类 型 的 成 员 ， 称 为 仲裁 者 
Carbiter) 。 仲 裁 者 的 唯一 作用 束 是 参与 选举 。 仲 裁 者 并 不 保存 数据 ， 
也 不 会 为 客户 端 提供 服务 它 只 是 为 了 帮助 具有 两 个 成 员 的 副本 集 能 够 





















































满足 “大 多 数 ” 这 个 条 件 。 


由 于 仲裁 者 并 不 需要 履行 传统 mongod 服 务 器 的 责任 ， 所 以 可 以 将 仲裁 

者 作为 轻 量 级 进程 ， 运 行 在 配置 比较 差 的 服务 器 上 。 如 果 可 能 ， 应 该 将 

仲裁 者 放 在 单独 的 故障 域 (failure domain) 中 ， 与 其 他 成 员 分 开 。 这 样 

Rn 的 成 员 了 ， 如 9.5 节 在 部 署 列 表 中 
荐 的 一 样 。 


0 f 通 mongod 的 方式 相同 ， 使 用 "- -replset 副本 集 名 
空 的 数据 目录 。 可 以 使 用 rs.addarb() 辅 助 函数 将 仲裁 者 添加 到 副 


























> rs.addArb("server-5:27017") 
也 可 以 在 成 员 配 置 中 指定 arbiteronly 选 项 ， 这 与 上 面 的 效果 是 一 样 
的 : 


> rs.add({"_id" : 4, "host" : "server-5:27017", "arbiterOnly" : true}) 





成 员 一 旦 以 仲裁 者 的 号 份 添 加 到 副本 集中 ， 它 束 永 远 只 能 是 仲裁 者 : 无 
法 将 仲裁 者 重新 配置 为 非 仲裁 者 ， 反 之 亦 然 。 


使 用 仲裁 者 的 另 一 个 好 处 是 : 如 果 你 拥有 的 节点 数 是 偶数 ， 那 么 可 能 会 
出 现 一 半 节 点 投票 给 A， 但 是 另 一 半 成 员 投票 给 B 的 情况 。 仲 裁 者 这 时 
就 可 以 投 出 决定 胜 负 的 关键 一 票 。 


1. 最 多 只 能 使 用 一 个 仲裁 者 


注意 ， 在 上 面 的 例子 中 ， 最 多 只 需要 一 个 仲裁 者 。 如 果 节 点 数量 是 奇 
数 ， 那 吏 不 需要 仲裁 者 。 一 种 错误 的 理解 是 : 为 了 “以 防 万 一 ”， 总 是 应 
该 添加 额外 的 仲裁 者 。 但 是 ， 添 加 额外 的 仲裁 者 ， 并 不 能 加 快 选举 速 
度 ， 也 不 能 提供 更 好 的 数据 安全 性 。 


假设 有 一 个 3 成 员 的 副本 集 。 需 要 两 个 成 员 才 能 组 成 “大 多 数 "， 才 能 

举 主 市 点 。 如 果 这 时 添加 了 一 个 仲裁 者 ， 副 本 集中 ， 总 共 就 有 4 个 成 员 

了 了， 要 有 3 个 成 员 才 能 组 成 “< 大 多 数 "。 因 此 ， 副 本 集 的 稳定 性 其 实 是 降 
低 了 : 原本 只 需要 67% 的 成 员 可 用 ， 副 本 集束 可 用 ; 现在 必须 要 有 75% 























的 成 员 可 用 ， 副 本 集 才 可 用 。 


谎 加 额外 成 员 也 会 导致 选举 耗 时 变 长 。 由 于 添加 了 仲裁 者 ， 现 在 副本 集 
一 共 拥有 偶数 个 成 员 ， 这 样 就 可 能 出 现 两 个 成 员 票 数 相同 的 情况 。 仲 裁 
者 的 目的 应 该 是 避免 出 现 平 票 ， 而 不 是 导致 出 现 平 紧 。 


2. 仲裁 者 的 缺点 


不 知道 应 该 将 一 个 成 员 作 为 数据 节点 还 是 作为 仲裁 者 时 ， 应 该 将 其 作为 
数据 节点 。 在 小 副本 集中 使 用 仲裁 者 而 不 是 数据 节点 会 导致 一 些 操作 性 
的 任务 变 困 难 。 假 设 有 一 个 副本 集 ， 它 有 两 个 “普通 ”成员 ， 还 有 一 个 仲 
裁 者 成 员 ， 其 中 一 个 数据 成 员 挂 了 。 如 果 这 个 数据 成 员 真 的 挂 了 (数据 
无 法 恢复 ) ， 另 一 个 数据 成 员 成 为 主 节点 。 这 时 整个 副本 集中 只 有 一 个 
数据 成 员 和 一 个 仲裁 者 成 员 。 为 了 保证 数据 安全 ， 就 需要 一 个 新 的 备份 
节点 ， 并 且 将 主 节点 的 数据 副本 复制 到 备份 节点 。 复 制 数据 会 对 服务 器 
造成 很 大 的 压力 ， 会 拖 慢 应 用 程序 。 通 常 ， 将 几 GB 的 数据 复制 到 新 服 
务 器 可 以 很 快 完 成 ， 不 会 对 服务 器 和 应 用 程序 造成 显著 影响 ， 但 是 如 果 
要 复制 100 GB 以 上 的 数据 ， 问 题 就 会 很 严重 了 。 


相反 ， 如 末 拥 有 三 个 数据 成 员 ， 一 个 服务 器 挂 挥 时 ， 副 本 集中 仍然 有 一 
个 主 市 点 和 一 个 备份 节点 ， 不 会 影响 正常 运作 。 这 时 ， 可 以 用 剩余 的 那 
个 备份 节 扣 来 初始 化 一 个 新 的 备份 节操 服 务 右 ， 而 不 必 依 赖 于 主 市 后 。 


在 上 面 两 个 数据 成 员 + 一 个 仲裁 者 成 员 的 情景 中 ， 主 节点 是 仅 剩 的 一 份 
人 
服务 左上 。 


人 


9.6.2 ”优先 级 

优先 级 用 于 表示 一 个 成 员 泡 望 成 为 主 节 点 的 程度 。 优 先 级 的 取 值 范围 可 
以 是 0~100， 默 认 是 1。 将 优先 级 设 为 0X 有 特殊 含义 : 优先 级 为 0 的 成 员 永 
远 不 能 够 成 为 主 节点 。 这 样 的 成 员 称 为 被 动 成 员 (passive member) 。 


拥有 最 高 优先 级 的 成 员 会 优先 选举 为 主 布 把 (只 要 它 能 够 得 到 集合 
中 “大 多 数 ” 的 赞成 票 ， 并 且 数 据 是 最 新 的 ) 。 假 如 在 副本 集中 添加 了 一 



































个 优先 级 为 1.5 的 成 员 : 


> rs.add({"_id" : 4, "host" : "server-4:27017", "priority" : 1.5}) 


假设 其 他 成 员 的 优先 级 都 是 1， 只 要 server-4 拥 有 最 新 的 数据 ， 那 么 当前 
的 主 节点 束 会 目 动 退位 ，server-4 会 补 选 举 为 新 的 主 节点 。 如 果 server-4 
的 数据 不 够 新 ， 那 么 当前 主 节点 束 会 保持 不 变 。 设 置 优 先 级 并 不 会 导致 
副本 集中 选 不 出 主 节点 ， 也 不 会 使 数据 不 够 新 的 成 员 成 为 主 节点 (一 直 
到 它 的 数据 更 新 到 最 新 )。 


使 用 优先 级 时 有 一 点 需要 注意 : 修改 副本 集 配置 时 ， 新 的 配置 必须 要 发 
送 给 在 新 配置 下 可 能 成 为 主 节 点 的 成 员 。 因此 ， 无 法 在 一 次 reconfig 操 
作 中 将 当前 主 节 点 的 优先 级 设置 为 0， 也 不 能 对 所 有 成 员 优先 级 都 为 0 的 
副本 集 执行 reconfig。 


优先 值 的 值 只 会 影响 副本 集成 员 间 相对 优先 级 大 小 关系 。 如 果 系 个 副本 
集 3 个 成 员 的 优先 级 是 500、1、1， 男 一 个 副本 集 3 个 成 员 的 优先 级 是 2、 
1、1， 那 么 它们 的 行为 是 一 样 的 。 


9.6.3 ”隐藏 成 员 


客户 端 不 会 问 隐藏 成 员 发 送 请 求 ， 隐 藏 成 员 也 不 会 作为 复制 源 《〈 尽 管 当 
其 他 复制 源 不 可 用 时 隐藏 成 员 也 会 被 使 用 ) 。 因 此 ， 很 多 人 会 将 不 够 强 
大 的 服务 器 或 者 备份 服务 占 隐 藏 起 来 。 


假设 有 一 副本 集 如 下 所 示 : 


> rs.isMaster() 


{ 


"hosts" : [ 
"server-1:27107", 
"server-2:27017", 
"server-3:27017" 















































]， 


为 了 隐藏 server-3， 可 以 在 它 的 配置 中 指定 hidden : true。 只 有 优先 级 
为 0 的 成 员 才 能 被 隐藏 〈 不 能 将 主 节 点 隐藏 ) : 


> Var config = rs.config() 

> config.members[2].hidden = 0 

0 

> config.members[2].priority = 0 
0 


> rs.reconfig(config) 


现在 ， 执 行 isMaster() 可 以 看 到 ; 


> rs.isMaster() 


"hosts"”: [ 
"server-1:27107", 
"server-2:27017" 

]， 








使 用 rs.status() 和 rs.config() 能 够 看 到 隐藏 成 员 ， 隐 藏 成 员 只 对 
isMaster() 不 可 见 。 客 户 端 连接 到 副本 集 时 ， 会 调用 isMaster() 来 查看 
可 用 成 员 。 因 此 ， 隐 藏 成 员 不 会 收 到 客户 端的 读 请 求 。 


要 将 隐藏 成 员 设 为 非 隐 藏 ， 只 需 将 配置 中 的 hidden 设 为 false 束 可 以 
了 ， 或 者 删除 hidden 选 项 。 


9.6.4 ”延迟 备份 节点 


数据 可 能 会 因为 人 为 错误 而 人 遭受 虹 灭 性 的 破坏 ， 可 能 有 人 不 小 心 删除 了 

主 数据 库 ， 或 者 刚 上 线 的 新 版 应 用 程序 有 一 个 严重 bug， 把 所 有 数据 者 

~、 为 了 防止 这 类 问题 ， 可 以 使 用 slavepelay 设 置 一 个 延迟 的 
份 节 反 。 


延迟 备份 节点 的 数据 会 比 主 节 点 延迟 指定 的 时 间 《〈 单 位 是 秒 ) ， 这 是 有 
意 为 之 。 这 样 ， 如 果 有 人 不 小 心 摧毁 了 你 的 主 集合 ， 还 可 以 将 数据 从 先 
前 的 备份 中 恢复 过 来 。12.4.7 节 有 详细 介绍 。 


slaveDelay 要 求 成 员 的 优先 级 是 0。 如 果 你 的 应 用 会 将 读 请 求 路 由 到 备 
份 节点 ， 应 该 将 延迟 备份 节点 隐藏 挤 ， 以 免 读 请 求 被 路 由 到 延迟 备份 贡 
扩 。 








9.6.5 ”创建 索引 








有 时， 备份 节点 并 不 需要 与 主 节 点 拥有 相同 的 索引 ， 甚 至 可 以 没有 索 
引 。 如 果 某 个 备份 节点 的 用 途 仅仅 是 处 理 数 据 备份 或 者 是 离线 的 批量 任 
务 ， 那 么 你 可 能 希望 在 它 的 成 员 配 置 中 指定 "buildIndexs" ; false。 这 
个 选项 可 以 阻止 备份 节点 创建 索引 。 


这 是 一 个 永久 选项 ， 指 定 了 "buildIndexes" : false 的 成 员 永 远 无 法 恢 
复 为 可 以 创建 索引 的 “正常 ”成员 。 如 果 确 实 需 要 将 不 创建 索引 的 成 员 修 
改 为 可 以 创建 索引 的 成 员 ， 那 么 必须 将 这 个 成 员 从 副本 集中 移 除 ， 再 删 
人 
行 数据 同步 


另外 ， 这 个 选项 也 要 求 成 员 的 优先 级 为 0。 





本 章 介 绍 副本 集 的 各 个 部 分 是 如 何 组 织 在 一 起 的 ， 包 括 ; 


副本 集成 员 如 何 复制 新 数据 ; 
如 何 让 新 成 员 开 始 工 作 ; 
选举 机 制 

可 能 的 服务 器 和 网 络 故障 。 


10.1 同步 


复制 用 于 在 多 台 服 务 器 之 间 备 份 数 据 。 MongoDB 的 复制 功 人 上 是 使 用 操 
作 日 志 oplog 实 现 的 ， 操 作 日 志 包 含 了 主 节 点 的 每 一 次 写 操作 。oplog 是 

主 节 点 的 local 数 据 库 中 的 一 个 固定 集合 。 备 份 节点 通过 查询 这 个 集合 就 
可 以 知道 需要 进行 复制 的 操作 。 


每 个 备份 节点 都 维护 着 自己 的 oplog， 记 录 着 每 一 次 从 主 节点 复制 数据 
的 操作 。 这 样 ， 每 个 成 员 都 可 以 作为 同步 源 提 供给 其 他 成 员 使 用 ， 如 疼 
10-1 所 示 。 备 份 节点 从 当前 使 用 的 同步 源 中 获取 需要 执行 的 操作 ， 然 后 
在 目 己 的 数据 集 上 执行 这 些 操 作 ， 最 后 再 将 这 些 操作 写 入 自己 的 
oplog。 如 果 遇 到 茶 个 操作 失败 的 情况 《〈 只 有 当 同 步 源 的 数据 损坏 或 者 
数据 与 主 节点 不 一 致 时 才 可 能 发 生 ) ， 那 么 备份 节点 就 会 停止 从 当前 的 
同步 源 复 制 数据 。 








a 
Ee 


鱼 份 甫 点 大 于 10 的 查询 








图 10-1 oplog 中 按 顺 序 保存 着 所 有 执行 过 的 写 操作 。 每 个 成 员 都 维护 
着 一 份 自己 的 oplog， 每 个 成 员 的 oplog 都 应 该 跟 主 节 点 的 oplog 完 全 一 
致 《可 能 会 有 一 些 延 迟 ) 


如 果 茶 个 备份 节点 由 于 某 些 原因 挂 摊 了 ， 当 它 重 新 局 动 之 后 ， 就 会 目 动 
从 oplog 中 最 后 一 个 操作 开始 进行 同步 。 由 于 复制 操作 的 过 程 是 先 复制 
数据 再 写 入 oplog， 所 以 ， 备 份 节点 可 能 会 在 已 经 同步 过 的 数据 上 再 次 
执行 复制 操作 。MongoDB 在 设计 之 初 束 考虑 到 了 这 种 情况 ， 将 oplog 中 
的 同一 个 操作 执行 多 次 ， 与 只 执行 一 次 的 效果 是 一 样 的 。 


由 于 oplog 大 小 是 固定 的 ， 它 只 能 保存 特定 数量 的 操作 日 志 。 通 常 ， 
oplog 使 用 空间 的 增长 速度 与 系统 处 理 写 请 求 的 速率 近乎 相同 : 如 果 主 
节点 上 每 分 钟 处 理 了 1 KB 的 写 入 请 求 ， 那 么 oplog 很 可 能 也 会 在 一 分 钟 
内 写 入 1 KB 条 操作 日 志 。 但 是 ， 有 一 些 例外 情况 : 如 果 单 次 请 求 能 够 影 
响 到 多 个 文档 (比如 删除 多 个 文档 或 者 是 多 文档 更 新 ) ，oplog 中 就 会 
出 现 多 条 操作 日 志 。 如 果 单 个 操作 会 影响 多 个 文档 ， 那 么 每 个 受 影响 的 
文档 都 会 对 应 oplog 中 的 一 条 日 志 。 因 此 ， 如 果 执 行 db.coll.remove() 删 
除了 1 000 000 个 文档 ， 那 么 oplog 中 就 会 有 1 000 000 条 操作 日 志 ， 每 条 
0 
会 被 填 满 。 


10.1.1 初始 化 同步 














副本 集中 的 成 员 局 动 之 后 ， 就 会 检查 自身 状态 ， 确 定 是 人 否 可 以 从 某 个 成 
员 那 里 进行 同步 。 如 果 不 行 的 话 ， 它 会 尝试 从 副本 的 男 一 个 成 员 那 里 进 
行 完 整 的 数据 复制 。 这 个 过 程 就 是 初始 化 同步 (initial syncing) ， 包 括 
几 个 步骤 ， 可 以 从 mongod 的 日 志 中 看 到 。 





1. 首先 ， 这 个 成 员 会 做 一 些 记 录 前 的 准备 工作 : 选择 一 个 成 员 作为 同 
步 源 ， 在 localme 中 为 目 己 创 建 一 个 标识 符 ， 删 除 所 有 已 存在 的 数 
据 库 ， 以 一 个 全 新 的 状态 开始 进行 同步 : 


Mon Jan 30 11:09:18 [rsSync] replSet initial sync pending 

Mon Jan 30 11:09:18 [rsSync] replSet syncing to: server-1:27017 

Mon Jan 30 11:09:18 [rsSync] build index local.me { _id: 1 } 

Mon Jan 30 11:09:18 [rsSync] build index done © records 0 secs 

Mon Jan 30 11:09:18 [rsSync] replSet initial sync drop all databases 
Mon Jan 30 11:09:18 [rsSync] dropAllDatabasesExceptLocal 1 








注意 ， 在 这 个 过 程 中 ， 所 有 现 有 的 数据 都 会 被 删除 。 应 该 只 在 不 需 
要 保留 现 有 数据 的 情况 下 做 初始 化 同步 《或 者 将 数据 移 到 其 他 地 
方 ) ， 因 为 mongod 会 首先 将 现 有 数据 删除 。 


2. 然后 是 元 隆 〈cloning) ， 就 是 将 同步 源 的 所 有 记录 全 部 复制 到 本 
地 。 这 通常 是 整个 过 程 中 最 耗 时 的 部 分 : 


Mon Jan 30 11:09:18 [rsSync] replSet initial sync clone all databases 

Mon Jan 30 11:09:18 [rsSync] replSet initial sync cloning db: db1 

Mon Jan 30 11:09:18 [FileAllocator] allocating new datafile /data/db/dbi.ns, 
filling with zeroes... 


3. 然后 束 进 入 oplog 同 步 的 第 一 步 ， 克 隆 过 程 中 的 所 有 操作 都 会 被 记 
录 到 oplog 中 。 如 果 有 文档 在 克隆 过 程 中 被 移动 了 ， 就 可 能 会 补遗 
漏 ， 导 致 没有 被 殉 隆 ， 对 于 这 样 的 文档 ， 可 能 需要 重新 进行 元 隆 : 


Mon Jan 30 15:38:36 [rsSync] oplog Sync 1 of 3 
Mon Jan 30 15:38:36 [rsBackgroundSync] replSet Syncing to: server-1:27017 
Mon Jan 30 15:38:37 [rsSyncNotifier] replset setting oplog notifier to 
server-1:27017 
Mon Jan 30 15:38:37 [repl writer worker 2] replication update of non-mod 
failed: 
{ ts: Timestamp 1352215827000|17, h: -5618036261007523082, VvV: 2, op: "Uu" 
ns: "db1i.someColl", o02: { _id: ObjectId('50992a2a7852201e750012b7') }, 
0: { $set: { count.0: 2, count.1: 0 } }} 
Mon Jan 30 15:38:37 [repl writer worker 2] replication Info 
adding missing object 
Mon Jan 30 15:38:37 [repl writer worker 2] replication missing object 
not found on source. presumably deleted later in oplog 














上 面 是 一 个 比较 粗略 的 日 志 ， 显 示 了 有 文档 需要 重新 区 隆 的 情况 。 
在 死 隆 过 程 中 也 可 能 不 会 遗漏 文 要 ， 这 取决 于 流量 等 级 和 同步 源 上 
的 操作 类 型 。 

4. 接 下 来 是 oplog 同 步 过 程 的 第 二 步 ， 用 于 将 第 一 个 oplog 同 步 中 的 操 
作 记 录 下 来 。 


Mon Jan 30 15:39:41 [rsSync] oplog Sync 2 of 3 











这 个 过 程 比较 简单 ， 也 没有 太 多 的 输出 。 只 有 在 没有 东西 需要 元 隆 
时 ， 这 个 过 程 才 会 与 第 一 个 不 同 。 


5. 到 目前 为 止 ， 本 地 的 数据 应 该 与 主 节 点 在 菏 个 时 间 扣 的 数据 集 完全 
一 致 了 ， 可 以 开始 创建 索引 了。 如果 集 合 比 较 大 ， 或 者 要 创建 的 索 
引 比较 多 ， 这 个 过 程 会 很 耗 时 间 : 


Mon Jan 30 15:39:43 [rsSync] replSet initial sync building Indexes 

Mon Jan 30 15:39:43 [rsSync] replSet initial sync cloning indexes for : db1 

Mon Jan 30 15:39:43 [rsSync] build index db,allobjects { someColl: 1 } 

Mon Jan 30 15:39:44 [rsSync] build index done. scanned 209844 total records. 
1.96 secs 








6. 如 宋 当 前 市 点 的 数据 仍然 远 远 落 后 于 同步 源 ， 那 么 oplog 同 步 过 程 
的 最 后 一 步 就 是 将 创建 索引 期 间 的 所 有 操作 全 部 同步 过 来 ， 防 止 该 
成 员 成 为 备份 节点 。 


Tue Nov 6 16:05:59 [rsSync] oplog Sync 3 of 3 
7. 现在 ， 当 前 成 员 已 经 完成 了 初始 化 同步 ， 切 换 到 普通 同步 状态 ， 这 
时 当前 成 员 就 可 以 成 为 备份 节点 了 : 


Mon Jan 30 16:07:52 [rsSync] replSet initial sync done 
Mon Jan 30 16:07:52 [rsSync] replSet Syncing to: server-1:27017 
Mon Jan 30 16:07:52 [rsSync] replSet SECONDARY 








如 末 想 跟踪 初始 化 同步 过 程 ， 最 好 的 方式 就 是 伍 看 服务 絮 日 志 。 


从 操作 者 的 角度 来 说 ， 初 始 化 同步 是 非常 简单 的 : 使 用 空 的 数据 目录 局 
动 mongod 即 可 。 但 是 ， 更 多 时 候 可 能 需要 从 备份 中 恢复 〈 第 22 章 会 详 
细 介 绍 ) 而 不 是 进行 初始 化 同步 。 从 备份 中 恢复 的 速度 比 使 用 mongod 
复制 全 部 数据 的 速度 快 得 多 。 





克隆 也 可 能 损坏 同步 源 的 工作 集 (working set) 。 实 际 部 署 之 后 ， 可 能 
会 有 一 个 频繁 使 用 的 数据 子 集 常 驻 内 存 〈( 因 为 操作 系统 要 频繁 访问 这 个 
子 集 ) 。 执 行 初始 化 同步 时 ， 会 强制 将 当前 成 员 的 所 有 数据 分 页 加 载 到 
内 存 中 ， 这 会 导致 需要 频 党 访问 的 数据 不 能 利 驻 内 存 ， 所 以 会 导致 很 多 
请 求 变 慢 ， 因 为 原本 只 要 在 RAM (内 存 ) 中 就 可 以 处 理 的 数据 要 先 从 
磁盘 上 加 载 。 不 过 ， 对 于 比较 小 的 数据 集 和 性 能 比较 好 的 服务 器 ， 初 始 
化 同步 仍然 是 个 简单 易 用 的 选项 。 


初始 化 同步 过 程 中 经 常 遇 到 的 问题 是 ， 第 (2) 步 (克隆 ) 或 者 第 (5) 步 
(创建 索引 )〉 耗费 了 太 长 的 时 间 。 这 种 情况 下 ， 新 成 员 就 与 同步 源 的 
oplog“ 脱 节 ” 新 成 员 远 远 落 后 于 同步 源 ， 导 致 新 成 员 的 数据 同步 速度 赶 
0 














这 个 问题 没有 有 效 的 解决 办 法 ， 除 非 在 不 太 忙 时 执行 初始 化 同步 ， 或 者 
是 从 备份 中 恢复 数据 。 如 果 新 成 员 与 同步 源 的 oplog 脱 市 ， 初 始 化 同步 
就 无 法 正常 进行 。 下 一 节 会 更 深入 地 介绍 。 


10.1.2 处理 陈旧 数据 


如 果 备 份 节 点 远 远 落后 于 同步 源 当前 的 操作 ， 那 么 这 个 备份 节点 就 是 陈 
旧 的 《stale) 。 陈 旧 的 备份 节点 无 法 跟 上 同步 源 的 节 委 ， 因 为 同步 源 上 
的 操作 领先 太 多 太 多 : 如 宋 要 继续 进行 同步 ， 备 份 节点 需要 跳 过 一 些 操 
作 。 如 果 从 备份 节点 曾经 停机 过 ， 写 入 量 超过 了 目 身 处 理 能 力 ， 或 者 是 
有 太 多 的 读 请 求 ， 这 些 情 况 都 可 能 导致 备份 节点 陈旧 。 


当 一 个 备份 节点 陈旧 之 后 ， 它 会 查看 副本 集中 的 其 他 成 员 ， 如 采 茶 个 成 
员 的 oplog 足 够 详尽 ， 可 以 用 于 处 理 那些 落下 的 操作 ， 就 从 这 个 成 员 处 
进行 同步 。 如 果 任 何 一 个 成 员 的 oplog 都 没有 参考 价值 ， 那 么 这 个 成 员 
上 的 复制 操作 束 会 中 止 ， 这 个 成 员 需 要 重新 进行 完全 同步 (或 者 是 从 最 
近 的 备份 中 恢复 ) 。 


为 了 避免 陈旧 备份 节点 的 出 现 ， 让 主 节 点 使 用 比较 大 的 oplog 保 存 足够 
多 的 操作 日 志 是 很 重要 的 。 大 的 oplog 会 占用 更 多 的 磁盘 空间 。 通 常 来 
说 ， 这 是 一 个 比较 好 的 折 囊 选择 ， 因 为 磁盘 会 越 来 越 便宜 ， 而 且 实 际 中 
使 用 的 oplog 只 有 一 小 部 分 ， 因 此 oplog 不 占用 太 多 RAM。 关 于 oplog 空 间 
占用 的 更 多 信息 ，12.4.6 节 会 详细 介绍 。 














10.2 心跳 


每 个 成 员 都 需要 知道 其 他 成 员 的 状态 : 哪个 是 主 节点 ?哪个 可 以 作为 同 
步 源 ?哪个 挂 挥 了 ? 为 了 维护 集合 的 最 新 视 网 ， 每 个 成 员 每 隅 两 秒 钟 就 
会 向 其 他 成 员 发 送 一 个 心跳 请 求 (heartbeat request) 。 心 跳 请 求 的 信息 
量 非常 小 ， 用 于 检查 每 个 成 员 的 状态 。 


心跳 最 重要 的 功能 之 一 就 是 让 主 市 把 知 道 自己 是 否 满 足 集 合 “ 大 多 数 ” 的 
条 件 。 如 末 主 市 把 不 再 得 到 “大 多 数 ” 服 务 器 的 文 持 ， 它 束 会 退位 ， 变 成 
备份 节点 。 
成 员 状态 


各 个 成 员 会 通过 心跳 将 自己 的 当前 状态 告诉 其 他 成 员 。 我 们 已 经 讨论 过 
两 种 状态 了: 主 节点 和 备份 节点 。 还 有 其 他 一 些 常 见 状态 。 


® STARTUP 
成 员 刚 局 动 时 处 于 这 个 状态 。 在 这 个 状态 下 ，MongoDB 会 尝试 加 
载 成 员 的 副本 集 配 置 。 配 置 加 载 成 功 之 后 ， 就 进入 STARTUP2 状 态 。 





e STARTUP2 


整个 初始 化 同步 过 程 都 处 于 这 个 状态 ， 但 是 如 果 是 在 普通 成 员 上 ， 
这 个 状态 只 会 持续 几 秒 钟 。 在 这 个 状态 下 ，MongoDB 会 创建 几 个 
线程 ， 用 于 处 理 复制 和 选举 ， 然 后 就 会 切换 到 RECovERING 状 态 。 





e RECOVERING 


这 个 状态 表明 成 员 运 转正 常 ， 但 是 和 暂时 还 不 能 处 理 读 取 请 求 。 如 果 
是 可 能 会 造成 轻微 的 系统 过 载 ， 以 后 可 能 会 经 
常见 到 。 

局 动 时 ， 成 员 需 要 做 一 些 检查 以 确保 目 己 处 于 有 效 状 态 ， 之 后 才 可 
以 处 理 读 取 请 求 。 在 局 动 过 程 中 ， 成 为 备份 节点 之 前 ， 每 个 成 员 都 
要 经 历 RECOVERING 状 态 。 在 处 理 非常 耗 时 的 操作 时 ， 成 员 也 可 能 进 
入 RECOVERING 状 态 。， 比 如 压缩 或 者 是 响应 replsetMaintenance 命 
令 ( 详 见 12.3.3 节 ) 。 

当 一 个 成 员 与 其 他 成 员 脱 节 时 ， 也 会 进入 RECOVERING 状 态 。 通 常 来 




















说 ， 这 时 这 个 成 员 处 于 无 效 状 态 ， 需 要 重新 同步。 但是， 成 员 这 时 
并 没有 进入 错误 状态 ， 因 为 它 期 望 发 现 一 个 拥有 足够 详尽 oplog 的 
成 员 ， 然 后 继续 同步 oplog， 最 后 回 到 正常 状态 。 


e ARBITER 


在 正常 的 操作 中 ， 仲 裁 者 应 该 始终 处 于 ARBITER 状 态 。 
系统 出 现 问题 时 会 处 于 下 面 这 些 状态 。 


e DOWN 
如 果 一 个 正常 运行 的 成 员 变 得 不 可 达 ， 它 就 处 于 powN 状 态 。 注 意 ， 


如 果 有 成 员 被 报告 为 DowN 状 态 ， 它 有 可 能 仍然 处 于 正常 运行 状态 ， 
不 可 达 的 原因 可 能 是 网 络 问题 。 





® UNKNOWN 


如 琳 一 个 成 员 无 法 到 达 其 他 任何 成 员 ， 其 他 成 员 束 无 法 知道 它 处 于 
什么 状态 ， 会 将 其 报告 为 UNKNowN 状 态 。 通 常 ， 这 表明 这 个 未 知 状 
态 的 成 员 挂 挥 了 ， 或 者 是 两 个 成 员 之 间 存 在 网 络 访问 问题 。 


e REMOVED 


当成 员 被 移出 副本 集 时 ， 它 就 处 于 这 个 状态 。 如 果 被 移出 的 成 员 叉 
被 重新 添加 到 副本 集中 ， 它 就 会 回 到 “正常 "状态 。 





® ROLLBACK 


如 条 成 员 正 在 进行 数据 回 深 〈 详 见 10.4T ) ， 它 残 处 于 ROLLBACK 状 
态 。 回 深 过 程 结束 时 ， 服 务 右 会 转换 为 RECOVERING 状 态 ， 然 后 成 为 
备份 节点 。 


e FATAL 


如 果 一 个 成 员 发 生 了 不 可 挽回 的 错误 ， 也 不 再 尝试 恢复 正常 的 话 ， 
它 就 处 于 FATAL 状 态 。 应 该 查看 详细 日 志 来 查 明 为 何 这 个 成 员 处 于 
FATAL 状 态 〈 使 用 "replset “FATAL" 关 键 词 在 日 志 上 执行 grep， 就 可 





以 找到 成 员 进 入 FATAL 状 态 的 时 间 点 ) 。 这 时 ， 通 种 应 该 重 局 服务 
器 ， 进 行 重 新 同步 或 者 是 从 备份 中 恢复 。 


10.3 ”选举 


当 一 个 成 员 无 法 到 达 主 节点 时 ， 它 就 会 申请 被 选举 为 主 节操 。 硕 望 被 选 
举 为 主 市 反 的 成 员 ， 会 同 它 能 到 达 的 所 有 成 员 发 送 通 知 。 如 果 这 个 成 员 
不 符合 候选 人 要 求 ， 其 他 成 员 可 能 会 知道 相关 原因 : 这 个 成 员 的 数据 落 
后 于 副本 集 ， 或 者 是 已 经 有 一 个 运行 中 的 主 节 点 《那个 力求 被 选举 成 为 
主 节点 的 成 员 无 法 到 达 这 个 主 节点 ) 。 在 这 些 情况 下 ， 其 他 成 员 不 会 允 
许 进行 选举 。 


假如 没有 反对 的 理由 ， 其 他 成 员 束 会 对 这 个 成 员 进 行 选举 投票 。 如 宁 这 
个 成 员 得 到 副本 集中 “大 多 数 ” 赞 成 肾 ， 它 就 选举 成 功 ， 会 转换 到 主 节 扣 
状态 。 如 末 达 不 到 “大 多 数 ” 的 要 求 ， 那 么 选举 失败 ， 它 仍然 处 于 备份 布 
扩 状 态 ， 之 后 还 可 以 再 次 申请 被 选举 为 主 节 把 。 主 节点 会 一 直 处 于 主 市 
扩 状 态 ， 除 非 它 由 于 不 再 满足 “大 多 数 ”的 要 求 或 者 挂 了 而 退位 ， 为 外 ， 
副本 集 被 重新 配置 也 会 导致 主 节 点 退位 。 


假如 网 络 状况 良好 ,，“ 大 多 数 ? 服 务 器 也 都 在 正常 运行 ， 那 么 选举 过 程 是 
很 快 的 。 如 果 主 节点 不 可 用 ，2 秒 钟 (之 前 讲 过 ， 心 跳 的 间隔 是 2 秒 ) 之 
内 就 会 有 成 员 发 现 这 个 问题 ， 然 后 会 立即 开始 选举 ， 整 个 选举 过 程 只 会 
花费 几 毫 秒 。 但 是 ， 实 际 情况 可 能 不 会 这 么 理想 : 网 络 问题 ， 或 者 是 服 
务 右 过 载 导 致 啊 应 缓慢 ， 都 可 能 触发 选举 。 在 这 种 情况 下 ， 心 跳 会 在 最 
多 20 秒 之 后 超时 。 如 果 选 举 打 成 平 局 ， 每 个 成 员 都 需要 等 待 30 秒 才能 开 
本 
gg 时间。 


10.4 回 湾 


根据 上 一 节 讲述 的 选举 过 程 ， 如 果 主 市 点 执 行 了 一 个 写 请 求 之 后 挂 了 ， 
但 是 备份 节 扣 还 没 来 得 及 复制 这 次 操作 ， 那 么 新 选举 出 来 的 主 三 点 束 会 
漏 掉 这 次 写 操 作 。 假 如 有 两 个 数据 中 心 ， 其 中 一 个 数据 中 心 拥 有 一 个 主 
节 所 和 一 个 备份 节点 ， 允 一 个 数据 中 心 拥有 三 个 备份 节点 ， 如 图 10-2 所 
外。 





























图 10-2 ”一 个 可 能 的 双 数 据 中 心 配置 


如 果 这 两 个 数据 中 心 之 间 出 现 了 网 络 故障 ， 如 图 10-3 所 示 。 其 中 左边 第 
一 个 数据 中 心 最 后 的 操作 是 126， 但 是 126 操 作 还 没有 被 复制 到 男 边 的 数 


据 中 心 。 
DO 








图 10-3 ”在 不 同 数据 中 心 之 间 进 行 复制 比 在 单一 数据 中 心 内 要 慢 


右边 的 数据 中 心 仍然 满足 副本 集 “ 大 多 数 ” 的 要 求 〈 一 共 5 台 服 务 器 ，3 台 
即 可 满足 要 求 ) 。 因 此 ， 其 中 一 台 服 务 器 会 被 选举 成 为 新 的 主 节点 ， 这 
个 新 的 主 节点 会 继续 处 理 后 续 的 写 入 操作 ， 如 图 10-4 所 示 。 








图 10-4 右边 数据 中 心 未 能 完成 复制 左边 数据 中 心 的 写 操作 


网 络 恢 复 之 后 ， 左 边 数 据 中 心 的 服务 器 就 会 从 其 他 服务 器 开始 同步 126 
之 后 的 操作 ， 但 是 无 法 找到 这 个 操作 。 这 种 情况 发 生 的 时 候 ，A 和 了 B 会 
进入 回 滚 (rollback〉 过 程 。 回 深 会 将 失败 之 前 未 复制 的 操作 撤消 。 拥 
有 126 操 作 的 服务 器 会 在 右边 数据 中 心服 务 器 的 oplog 中 寻找 共同 的 操作 
点 。 之 后 会 定位 到 125 操 作 ， 这 是 两 个 数据 中 心 相 匹配 的 最 后 一 个 操 
作 。 图 10-5 显 示 了 oplog 的 情况 。 


A 


四 四 四 四 四 四 


B 


四 四 加 


图 10-5 ”图 中 两 个 成 员 的 oplog 有 冲突 : 很 显然 ，A 的 126-128 操 作 被 复 
制 之 前 ，A 册 演 了 ， 所 以 这 些 操作 并 没有 出 现在 B 中 〈(B 拥 有 更 多 的 最 
近 操 作 ) 。A 必 须 先 将 126-128 这 3 个 操作 回 深 ， 然 后 才能 重新 进行 同步 


这 时 ， 服 务 器 会 查看 这 些 没有 被 复制 的 操作 ， 将 受 这 些 操 作 有 影响 的 文档 
写 入 一 个 .bson 文 件 ， 保 存在 数据 目录 下 的 rollback 目 录 中 。 如 果 126 是 一 
个 更 新 操作 ， 服 务 器 会 将 被 126 更 新 的 文档 写 入 collectionName.bson 文 
件 。 然 后 会 从 当前 主 节 点 中 复制 这 个 文档 。 


下 面 是 一 次 典型 的 回 深 过 程 产生 的 日 志 : 


Fri Oct 7 06:30:35 [rsSync] replSet syncing to: server-1 

Fri Oct 7 06:30:35 [rsSync] replSet our last op time written: Oct 7 
06:30:05:3 

Fri Oct 7 06:30:35 [rsSync] replset source's GTE: Oct 7 06:30:31:1 

Fri Oct 06:30:35 [rsSync] replSet rollback 0 

Fri Oct 06:30:35 [rsSync] replSet ROLLBACK 

Fri Oct 06:30:35 [rsSync] replSet rollback 1 

Fri Oct 06:30:35 [rsSync] replSet rollback 2 FindCommonPoint 

Fri Oct 7 06:30:35 [rsSync] replSet info rollback our last optime: Oct 7 
06:30:05:3 

Fri Oct 7 06:30:35 [rsSync] replSet info rollback their last optime: Oct 7 
06:30:31:2 

Fri Oct 7 06:30:35 [rsSync] replSet info rollback diff in end of log times: 
-26 seconds 

Fri Oct 7 06:30:35 [rsSync] replSet rollback found matching events at Oct 7 
06:30:03:4118 

Fri Oct 7 06:30:35 [rsSync] replSet rollback findcommonpoint scanned : 6 





A 


Fri Oct 7 06:30:35 [rsSync] replSet replSet rollback 3 fixup 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 3.5 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 4 n:3 

Fri Oct 7 06:30:35 [rsSync] replSet minvalid=0ct 7 06:30:31 4e8ed4c7:2 
Fri Oct 7 06:30:35 [rsSync] replSet rollback 4.6 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 4.7 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 5 d:6 u:0 

Fri Oct 7 06:30:35 [rsSync] replSset rollback 6 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 7 

Fri Oct 7 06:30:35 [rsSync] replSet rollback done 


Fri Oct 7 06:30:35 [rsSync] replSet RECOVERING 
Fri Oct 7 06:30:36 [rsSync] replSet syncing to: server-1 
Fri Oct 7 06:30:36 [rsSync] replSet SECONDARY 


服务 器 开始 从 男 一 个 成 员 进 行 同步 (在 本 例 中 是 server-1) ， 但 是 发 现 
无 法 在 同步 源 中 找到 上 自己 的 最 后 一 次 操作 。 这 时 ， 它 就 会 切换 到 回 滚 状 
态 〈"replset ROLLBACK" ) 进行 回 滚 。 

第 2 步 ， 服 务 器 在 两 个 oplog 中 找到 一 个 共同 的 点 ， 是 26 秒 之 前 的 一 个 操 
作 。 然 后 服务 器 就 会 将 最 近 26 秒 内 执行 的 操作 从 oplog 中 撤销 。 回 深 完 
成 之 后 ， 服 务 器 就 进入 RECoVERING 状 态 开始 进行 正常 同步 。 

如 果 要 将 被 回 滚 的 操作 应 用 到 当前 主 节点 ， 首 先 使 用 mongorestore 命 令 
将 它们 加 载 到 一 个 临时 集合 : 


$ mongorestore --db stage --collection Stuff \ 
> /data/db/rollback/important.stuff.2012-12-19T18-27-14.0.bson 











现在 应 该 在 shell 中 将 这 些 文档 与 同步 后 的 集合 进行 比较 。 例 如 ， 如 有 果 有 
人 在 被 回 滚 的 成 员 上 创建 了 一 个 “普通 ?索引 ， 而 当前 主 市 氮 创 建 了 一 个 
唯一 索引 ， 那 么 就 需要 确保 被 回 深 的 数据 中 没有 重复 文档 ， 如 果 有 的 话 
要 去 除 重 复 。 


如 采 和 希望 保留 staging 集 合 中 当前 版 本 的 文档 ， 可 以 将 其 载 入 主 集合 : 


> Staging,stuff,find().forEach(function(doc) { 
1 prod.stuff.insert(doc); 
:，}) 











对 于 只 允许 插入 的 集合 ， 可 以 直接 将 被 回 深 的 文档 插入 主 集 合 。 但 是 ， 
如 果 是 在 集合 上 执行 更 新 操作 ， 在 合并 回 深 数 据 时 就 要 非常 小 心地 对 

待 

一 个 经 常会 被 误 用 的 成 员 配 置 选项 是 设置 每 个 成 员 的 投票 数量 。 改 变 成 
员 的 投票 数量 通常 不 会 得 到 想 要 的 结果 ， 而 且 很 可 能 会 导致 大 量 的 回 深 
操作 所 以 上 一 章 的 成 员 属 性 列表 中 没有 介绍 这 个 选项 ) 。 除 非 做 好 了 
定期 处 理 回 深 的 准备 ， 否 则 不 要 改变 成 员 的 投票 数量 。 


第 11 章 会 讲述 如 何 阻止 回 深 。 








如 果 回 滚 失 败 


某 些 情况 下 ， 如 果 要 回 滚 的 内 容 太 多 ，MongoDB 可 能 承受 不 了 。 如 果 
要 回 滚 的 数据 量 大 于 300 MB， 或 者 要 回 滚 30 分 钟 以 上 的 操作 ， 回 深 就 
会 失败 。 对 于 回 滚 失败 的 节点 ， 必 须要 重新 闻 步 。 


这 种 情况 最 常见 的 原因 是 备份 节点 远 远 落 后 于 主 市 把 ， 而 这 时 主 节 点 却 
挂 了 。 如 果 其 中 一 个 备份 节点 成 为 主 节 把 ， 这 个 主 节 扣 与 旧 的 主 节点 相 
比 ， 缺 少 很 多 操作 。 为 了 保证 成 员 不 会 在 回 滚 中 失败 ， 最 好 的 方式 是 保 
持 备 份 节点 的 数据 尽 可 能 最 新 。 














第 11 章 ”从 应 用 程序 连接 副本 集 


本 章 介 绍 如 何在 应 用 程序 中 与 副本 集 进行 交互 ， 包 括 : 


。 如 何 连接 到 副本 集 以 及 故障 转移 的 工作 机 制 ; 
。 等 待 写 入 复制 ; 


。 将 读 请 求 路 由 到 正确 的 成 员 。 
11.1 客户 端 到 副本 集 的 连接 


从 应 用 程序 的 角度 来 说 ， 使 用 副本 集 与 使 用 单 台 服 务 器 很 像 。 默 认 情 况 
下 ， 了 驱动 程序 会 连接 到 主 节点 ， 并 且 将 所 有 请 求 都 路 由 到 主 节点 。 应 用 
0 0 0 0 
热 备份 。 


连接 副本 集 与 连接 单 台 服 务 器 非常 像 。 在 驱动 程序 中 使 用 

与 Mongoclient 等 价 的 对 象 ， 并 且 提 供 一 个 希望 连接 到 的 副本 集 种 子 
(seed) 列表 。 种 子 是 副本 集成 员 。 并 不 需要 将 所 有 成 员 都 列 出 来 〈 虽 
然 可 以 这 么 做 ) : 驱动 程序 连接 到 某 个 种 子 服 务 器 之 后 ， 就 能 够 得 到 其 
他 成 员 的 地 址 。 一 个 常用 的 连接 字符 串 如 下 所 示 : 


"mongodb://server-1:27017, server-2:27017" 

















具体 可 以 碍 看 相关 的 驱动 程序 文档 。 


当主 节点 挂 挥 之 后 ， 驱 动 程序 会 尽快 自动 找到 新 的 主 节点 (只 要 新 的 主 
节点 被 选举 出 来 ) ， 并 且 将 请 求 路 由 到 新 的 主 节点 。 但 是 ， 如 果 没 有 可 
达 的 主 市 尽 ， 应 用 程序 束 无 法 执行 写 操作 。 


在 选举 过 程 中 ， 主 节点 可 能 会 暂时 不 可 用 ; 如 果 没 有 可 达 的 成 员 能 够 成 
为 主 市 点 ， 主 市 反 可 能 长 时 间 不 可 用 。 上 默认 情 况 下 ， 了 驱动 程序 在 这 段 时 
Ss ee A 
份 和 反 。 


从 用 户 的 角度 来 说 ,希望 驱动 程序 能 够 隐藏 挥 整个 选举 过 程 〈 主 市 点 退 

















位 ， 新 的 主 节点 被 选举 出 来 ) 。 但 是 ， 在 很 多 情况 下 这 是 不 可 能 做 到 
的 ， 所 以 没有 哪个 驱动 程序 能 够 这 样 处 理 故 障 转移 。 首 先 ， 驱 动 程序 仅 
仅 能 够 将 没有 主 节 点 的 情况 隐瞒 一 段 时 间 : 副本 集 不 能 在 没有 主 节 点 的 
情况 下 永久 存在 。 其 次 ， 如 果 有 操作 失败 了 ， 了 驱动 程序 就 知道 是 主 市 后 
挂 了 ， 但 是 无 法 知道 主 节 点 在 挂 挥 之 前 是 否 已 经 正确 处 理 本 次 请 求 。 所 
以 ， 驱 动 程序 将 这 个 问题 留 给 了 用 户 : 如 果 新 的 主 节 扣 很 快 被 选举 出 
来 ， 要 不 要 在 新 的 主 节 点 上 重新 操作 ?是否 要 假设 最 后 一 次 请 求 已 经 被 
旧 的 主 节点 处 理 完成 ? 是 否 要 检查 新 的 主 节点 以 确保 它 同 步 了 最 后 的 操 
作 ? 对 这 些 具体 问题 的 处 理 都 取决 于 你 的 应 用 程序 。 


通常 ， 驱 动 程序 没有 办 法 判断 某 次 操作 是 否 在 服务 器 月 溃 之 前 成 功 处 
理 ， 但 是 应 用 程序 可 以 自己 实现 相应 的 解决 方案 。 比 如 ， 如 果 驱 动 程序 
发 出 插入 {"_igd" : 1} 文档 的 请 求 之 后 收 到 主 节点 月 演 的 错误 ， 连 接 到 
新 的 主 节点 之 后 ， 可 以 查询 主 节点 中 是 否 有 {"_id"”; 1} 这 个 文档 。 


11.2 等待 写 入 复制 


前 面 章节 中 已经 提 到 ， 如 采 和 希望 不 管 发 生 什 么 都 将 写 入 操作 保存 到 副本 
集中 ， 那 么 必须 要 确保 写 入 操作 被 同步 到 了 副本 集 的 “大 多 数 ”。 


之 前 ， 我 们 使 用 getLastError 命 令 检 查 写 入 是 否 成 功 。 也 可 以 使 用 这 个 

命令 确保 写 入 操作 被 复制 到 备份 节点 。 参 数 "w" 会 强制 要 求 getLastError 

等 待 ， 一 直到 给 定数 量 的 成 员 都 执行 完了 最 后 的 写 入 操作 。MongoDB 

a 以 传递 给 "w"， 束 是 "majority"。 在 shell 中 它 如 下 
修 : 



































> db.runCommand({"getLastError™" : 1, "w" : "majority"}) 
号 全 总 90， 
"lastop"”: Timestamp(1346790783000, 1), 
"connectionId" :; 2, 
"writtenTo" : [ 
{ "_id" :0 , "host" : "server-0" }, 
{ "_id" : 1, "host" : "server-1" }, 
{ "_id" : 3 , "host" : "server-3" } 
], 
"wtime" : 76 
"err" null 
"ok 1 
} 





注意 ， getLastError 输 出 信息 中 的 新 字段 "writtenTo" o 只 有 当 使 用 


了 "w" 选 项 并 且 最 后 的 操作 被 复制 到 多 个 服务 顺 时 才 会 有 这 个 字段 。 


假设 在 执行 这 个 命令 时 只 有 主 节点 和 一 个 仲裁 者 节点 可 用 ， 那 么 主 节点 
就 无 法 将 这 个 写 操作 复制 到 副本 集中 的 任何 成 员 。getLastError 并 不 知 
道 应 该 等 竺 多久， 所 以 它 会 一 直 等 待 下 去 。 因 此， 应 该 始终 为 wtimeout 
选项 设置 一 个 合理 的 值 。"wtimeout'" 是 getLastError 可 以 使 用 的 另 一 个 
选项 ， 它 的 值 是 命令 的 超时 时 间 ， 如 果 超 过 这 个 时 间 还 没有 返回 ， 就 会 
返回 失败 : MongoDB 无 法 在 指定 时 间 内 将 写 入 操作 复制 到 "w" 个 成 员 。 


下 列 代码 的 超时 时 间 是 1 秒 钟 : 


> db.runCommand({"getLastError™ : 1, "w" : "majority", "wtimeout" : 1000}) 








这 个 命令 可 能 会 由 于 多 种 原因 失败 : 其 他 成 员 可 能 挂 了 ， 可 能 落后 于 主 
节点 ， 也 可 能 由 于 网 络 问题 不 可 访问 。 如 果 getLastError 超 时 ， 应 用 程 
序 必 须要 对 这 种 情况 作出 处 理 。 注 意 ，getLastError 超 时 并 不 意味 着 写 
操作 失败 了 ， 仅 仅 表 明 写 操作 没 能 在 指定 时 间 内 复制 到 足够 多 的 成 员 。 
写 操作 仍然 被 复制 到 了 一 些 成 员 ， 而 且 会 尽快 传播 到 其 他 成 员 。 


通常 将 "w" 用 于 控制 写 入 速度 。MongoDB 的 写 入 速度 “ 太 快 "， 主 节点 上 
执行 完 写 入 操作 之 后 ， 备 份 节点 还 来 不 及 跟 上 。 阻 止 这 种 行为 的 一 种 党 
用 方式 是 定期 调用 getLastError， 将 "w" 参 数 指定 为 大 于 1 的 值 。 这 样 就 
会 强制 这 个 连接 上 的 写 操作 一 直 等 待 直到 复制 成 功 。 注 意 ， 这 只 会 阻塞 
这 个 连接 上 的 写 操 作 : 其 他 连接 上 的 写 操作 仍然 会 立即 执行 完成 并 返 
回 。 

















如 果 和 希望 应 用 程序 的 行为 更 上 自然 更 健壮 ， 应 该 定期 调用 getLastError， 
同时 指定 "majority" 和 一 个 合理 的 超时 时 间 。 如 果 这 个 命令 超时 了 ， 需 
要 找 出 出 错 原因 。 


11.2.1 可 能 导致 错误 的 原因 
假设 应 用 程序 将 一 个 写 操作 发 送 给 主 节 点 ， 然 后 调用 getLastError 〈 不 
使 用 "majority" 选 项 ) 收 到 写 入 成 功 的 反馈 ， 但 是 在 备份 节点 复制 这 个 
写 操作 之 前 ， 主 节点 月 溃 了 。 


现在 ， 应 用 程序 认为 可 以 访问 之 前 的 写 操 作 〈getLastError 命 令 的 输出 
信息 表明 写 入 操作 成 功 完成 ) ， 但 是 副本 集中 的 当前 成 员 并 不 拥有 这 个 


操作 的 副本 。 


在 茶 个 时 刻 ， 会 有 一 个 备份 节点 被 选举 为 新 的 主 市 把， 然后 开始 接受 新 
的 写 请 求 。 当 之 前 的 主 节 点 恢复 之 后 ， 会 发 现 它 拥 有 一 个 《或 几 个 ) 主 
节点 上 没有 的 写 操作 。 为 了 纠正 这 个 问题 ， 它 会 撤销 与 当前 主 市 反 不 一 
致 的 操作 。 这 些 操作 不 会 丢失 ， 但 是 会 被 写 到 特殊 的 回 滚 文件 中 ， 之 后 
可 以 手动 将 这 些 操作 应 用 到 当前 主 节 点 。MongoDB 不 能 自动 应 用 这 些 

写 操作 ， 因 为 这 些 写 操作 可 能 会 与 央 尝 之 后 产生 的 其 他 操作 冲突 。 因 

此 ， 这 些 操作 会 消失 ， 直 到 省 理 员 将 这 些 操作 应 用 到 当前 主 市 反 。 


写 入 时 指定 majority 可 以 避免 这 种 情况 的 发 生 : 如 果 应 用 程序 最 初 使 
用 "w" : "majority" 并 且 得 到 了 写 入 成 功 的 确认 信息 ， 那 么 新 的 主 节点 
DE 才能 被 选举 为 主 节 

。 如 果 getLastError 失 败 ， 应 用 程序 就 会 知道 在 操作 被 复制 到 大 多 
A ee A 


关于 回 滚 的 详细 信息 可 以 查看 第 10 章 。 
11.2.2 "w" 的 其 他 值 


"majority" 并 不 是 唯一 一 个 可 以 传递 给 getLastError 的 "w" 参 数 的 值 ， 
MongoDB 人 允许 将 "w" 指 定 为 任意 整数 ， 如 下 所 示 : 


> db.runCommand({"getLastError" :; 1, "w" : 2, "wtimeout" : 500}) 























这 个 命令 会 一 直 等 待 ， 直 到 与 操作 被 复制 到 两 个 成 员 《〈 主 节点 和 一 个 备 
份 节 点 ) 。 


注意 ，"w" 的 值 包含 了 主 贡 点 。 如 果 硕 望 写 操作 被 复制 到 n 个 备份 节 氮 ， 
应 该 将 "w" 指 定 为 n+1( 包 括 主 节点 ) 。 将 "w" 设 置 为 1 相当 于 没有 传 
入 "w" 选 项 ， 因为 MongoDB 只 会 检查 主 入 点 是 否 成 功 执行 了 写 操 

作 ， getLastError 始 终 会 做 这 样 的 检查 。 


使 用 常量 数值 的 兹 端 在 于 ， 如 果 副 本 集 的 配置 友 生 了 变化 ， 束 需要 修改 
你 的 应 用 程序 。 


11.3 ”和 目 定义 复制 保证 规则 











写 入 副本 集 的 “大 多 数 ” 成 员 被 认为 是 安全 写 入 。 然 而 ， 有 些 副 本 集 可 能 
有 更 复杂 的 要 求 : 可 能 会 希望 确保 写 操作 被 复制 到 每 个 数据 中 心中 至 少 
一 台 服 务 器 上 ， 或 者 是 被 复制 到 可 见 节点 的 “大 多 数 ” 服 务 器 上 。 副 本 集 
允许 创建 自己 的 规则 ， 并 且 可 以 传递 给 getLastError， 以 保证 写 操作 被 
复制 到 所 需 的 服务 器 上 。 


11.3.1 保证 复制 到 每 个 数据 中 心 的 一 台 服 务 器 上 


相对 于 单个 数据 中 心 内 部 ， 不 同 数据 中 心 之 间 更 容易 发 生 网 络 故障 ， 相 

对 于 多 个 数据 中 心 同等 数量 的 服务 器 挂 掉 ， 整 个 数据 中 心 挂 掉 的 可 能 性 

更 高 。 因 此 ， 可 能 你 希望 有 一 些 针 对 数据 中 心 的 逻辑 来 保证 写 操作 成 功 

执行 。 在 确认 成 功 之 前 ， 保 证 写 操作 被 复制 到 每 一 个 数据 中 心 ， 这 样 

万 一 某 个 数据 中 心 接线 了 ， 其 他 每 一 个 数据 中 心 部 有 一 从 最 新 的 本 地 数 
副本 。 


要 实现 这 种 机 制 ， 首 先 按照 数据 中 心 对 成 员 分 类 。 可 以 在 副本 集 配 置 中 
添加 一 个 "tags" 字 段 : 











> Var config = rs,config() 


> config.members[0].tags = {"dc" : "us-east"} 
> config.members[1].tags = {"dc" : "us-east"} 
> config.members[2].tags = {"dc" : "us-east"} 
> config.members[3].tags = {"dc" : "us-east"} 
> config.members[4].tags = {"dc" : "us-west"} 
> config.members[5].tags = {"dc" : "us-west"} 
> config.members[6].tags = {"dc" : "us-west"} 


"tags" 字 有 段 是 一 个 对 象 ， 每 个 成 员 可 以 拥有 多 个 标签 。 例 如 ，"us- 
east" 数 据 中 心 的 服务 器 可 能 是 "high quality" 服务器 ， 这 样 的 话 ， 可 以 
将 其 "tags" 字 段 配 置 为 {"dc": "us-east", "quality" : "high"}。 


第 二 步 是 创建 自己 的 规则 ， 可 以 通过 在 副本 集 配 置 中 创 

建 "getLastErrorMode" 字 上 段 实现 。 每 条 规则 的 形式 都 是 "name" : {"key" 
: number}}。 "name" 就 是 规则 的 名 称 ， 名 称 应 该 能 够 表明 这 条 规则 所 做 
的 事情 ， 方 便 客户 端 理解 ， 客 户 端 在 调用 getLastError 时 才能 够 正确 选 
择 上 自己 需要 的 规则 。 在 本 例 中 ， 将 这 个 规则 命名 为 "eachpc"， 或 者 更 抽 
象 一 点 ， 比 如 "user-level safe'"。 


这 里 的 "key" 字 段 就 是 标签 键 的 值 ， 所 以 在 这 个 例子 中 是 "dc"。 这 里 的 
number 是 再 要 遵循 这 条 规则 的 分 组 的 数量 。 在 本 例 中 ，number 是 2《〈 因 











为 我 们 希望 写 操 作 被 复制 到 "us-east" 和 "us-west" 两 个 分 组 中 各 自 至 少 
一 台 服 务 器 ) 。number 的 意思 是 “保证 写 操作 复制 到 number 个 分 组 ， 每 个 
分 组 内 至 少 一 台 服 务 器 上 ”。 


在 副本 集 配 置 中 添加 "get LastErrorModes" 字 上段， 创建 下 面 的 规则 ， 重 新 
执行 配置 : 


> config.settings = {} 
> config.settings.getLastErrorModes = [{"eachpc™" : {"dc" : 2}}] 
> rs.reconfig(config) 


"getLastErrorModes" 位 于 副本 集 配 置 中 的 "settings" 子 字段 ， 这 个 字段 
下 面包 含 一 些 副 本 集 级 别 的 可 选 设置 。 


现在 ， 可 以 对 写 操作 应 用 这 条 规则 : 


> db.foo.insert({"x" : 1}) 
> db.runCommand({"getLastError™" : 1, "w" : "eachDC", "wtimeout" : 1000}) 





注意 ， 应 用 程序 开发 者 并 不 会 知道 到 底 有 哪些 服务 器 使 用 了 "eachDc" 规 
则 ， 而 且 可 以 在 不 改变 应 用 程序 的 情况 下 任意 修改 具体 规则 。 可 以 添加 
0 或 者 是 更 改 副 本 集成 员 数 量 ， 而 应 用 程序 不 必 知 道 这 些 
改作 。 


11.3.2 保证 写 操作 被 复制 到 可 见 节点 中 的 “大 多 数 ” 


通常 ， 隐 藏 节点 在 某 种 程度 上 是 二 等 公民 : 发 生 故 障 时 不 会 转移 到 隐藏 
节点 ， 也 不 能 将 读 操作 路 由 到 隐藏 节点 。 你 可 能 只 关心 隐藏 节点 是 否 收 
到 了 写 请 求 ， 和 镜 下 的 就 交 给 隐藏 成 员 上 自己 去 解决 吧 。 
假设 我 们 拥有 5 个 成 员 ，hoste 到 host4， 其 中 host4 是 个 隐藏 成 员 。 我 们 
希望 确保 写 操作 被 复制 到 非 隐藏 节点 的 大 多 数 ， 也 就 

是 hostg、host1、host2 和 host3 中 的 至 少 三 个 成 员 。 要 创建 这 样 一 条 规 
则 ， 首 先 为 非 隐藏 节点 设置 标签 : 


> Var config = rs,config() 





























> config.members[0].tags 
> config.members[1].tags 


[人 normal”: "A' 
[{"normal" : "B' 
> config.members[2].tags = [{"normal™" :; "C' 
> config.members[3].tags = [{"normal™" : "D' 


DOmWr 
TT 
| 


不 需要 为 隐藏 节点 〈host4) 设置 标签 。 


现在 ， 为 这 些 服务 器 中 的 大 多 数 添 加 这 条 规则 : 


> config.settings.getLastErrorModes = [{"visibleMajority" : {"normal" : 3}}] 
> rs.reconfig(config) 


然后 就 可 以 在 应 用 程序 中 使 用 这 条 规则 了 : 


> db.foo,.insert({"x" : 1 
> db.runCommand({"getLastError™" : 1, "w" : "visibleMajority", "wtimeout": 1000}) 











命令 会 一 直 等 待 ， 直 到 写 操作 被 复制 到 至 少 三 个 非 隐藏 节点 。 

11.3.3 ”创建 其 他 规则 

可 以 无 限制 地 创建 各 种 规则 。 记 住 ， 创 建 自 定义 的 复制 规则 有 两 个 步 
又 。 





1. 使 用 键 值 对 设置 成 员 的 "tags" 字 段 。 这 里 的 键 用 于 描述 分 组 ， 可 能 
会 有 "data_center"、 "region" 或 者 "server Quality" 等 键 。 这 里 的 
值 表示 服务 器 所 属 的 分 组 。 例 如 ， 对 于 “data_center” 这 个 键 ， 可 
以 将 一 些 服务 器 标 为 "us-east"， 将 男 一 些 标 为 "us-west"， 其 他 的 
标 为 "aust"。 


2. 基于 刚刚 创建 的 分 组 创建 规划。 规则 总 是 形 如 {f"name" : f{"key" : 
number}}， 表 示 写 操作 返回 成 功 之 前 需要 复制 到 至少 number 个 分 
组 ， 每 个 分 组 内 的 一 台 服务 器 上 。 例 如 ， 可 以 创建 一 个 f"twopcs" 
: {"data_center" : 2}} 规 则 ， 意 思 是 说 ， 在 写 操作 成 功 之 前 ， 需 
确保 生 失 作 被 复 捉 到 两 个 数据 中 心 ， 每 个 数据 中 心 内 至 少 一 全 用 


然后 就 可 以 在 getLastError 中 使 用 刚刚 创建 的 规则 了 。 
规则 是 一 种 非常 强大 的 副本 集 配置 方式 ， 虽 然 它 理解 和 设置 起 来 都 有 些 


复杂 。 除 非 有 非常 特殊 的 复制 要 求 ， 否 则 使 用 "w" :"majority" 束 已 经 非 
常安 全 了 。 




















11.4 将 读 请 求 发 送 到 备份 节点 


默认 情况 下 ， 了 驱动 程序 会 将 所 有 的 请 求 都 路 由 到 主 节 点 。 这 通 第 也 正 是 
你 需要 的 ， 但 是 可 以 通过 设置 驱动 程序 的 读 取 首选 项 (read 
preferences) 配置 其 他 选项 。 可 以 在 读 选项 中 设置 需要 将 查询 路 由 到 的 
服务 器 的 类 型 。 


将 读 请 求 发 送 到 备份 节点 通常 不 是 一 个 好 主意 。 虽 然 在 茶 些 特定 情况 下 
这 是 有 意义 的 ， 但 是 通 利 应 该 将 全 部 请 求 都 路 由 到 主 节点 。 如 果 你 正在 
考虑 将 读 请 求 发 送 到 备份 科 点 ， 请 先 从 各 个 方面 好 好 权衡 之 后 再 做 决 

定 。 本 节 会 说 明 不 建议 这 么 做 的 原因 ， 也 会 介绍 需要 这 么 做 的 特定 情 

况 。 


11.4.1 出 于 一 致 性 考虑 
对 一 致 性 要 求 非 常 高 的 应 用 程序 不 应 该 从 备份 节点 读 取 数 据 。 


备份 节点 通常 会 落后 主 节 点 几 毫 秒 ， 但 是 ， 不 能 保证 一 定 是 这 样 。 有 
时 ， 由 于 加 载 问题 、 配 置 错 误 、 网 络 故障 等 原因 ， 备 份 节点 可 能 会 落后 
于 主 节 点 几 分 钟 、 几 个 小 时 甚至 几 天 。 客 户 端 驱 动 程序 并 不 知道 备份 节 
点 的 数据 有 多 新 ， 所 以 如 果 将 读 请 求 发 送 给 一 个 远 远 落后 于 主 节 点 的 备 
份 节点 ， 客 户 端 也 不 会 感觉 到 任何 问题 。 可 以 将 备份 节点 隐藏 掉 ， 以 避 
免 客户 端 读 取 它 ， 但 是 这 是 一 个 手动 过 程 。 如 果 你 的 应 用 程序 需要 读 取 
最 新 的 数据 ， 那 就 不 要 从 备份 节点 读 取 数据 。 


如 琳 应 用 程序 需要 读 取 它 自己 的 写 操作 (例如 ， 先 插入 一 个 文档 ， 然 后 
再 查询 它 ) ， 那 么 不 应 该 将 写 请 求 发 送 给 备份 节点 《除非 写 操作 像 前 面 
那样 ， 使 用 "w" 在 返回 之 前 被 复制 到 所 有 备份 节点 ) 。 人 否则 的 话 ， 可 能 
会 出 现 应 用 程序 成 功 执行 了 一 次 写 操作 ， 却 读 不 到 这 个 值 的 情况 《因为 
读 请 求 被 发 送 给 了 备份 节点 ， 而 之 前 的 写 操作 还 没有 被 复制 到 这 个 备份 
人 


为 了 能 够 始终 将 写 请 求 发 送 给 主 节 点 ， 需 要 将 读 选 项 设置 

为 Primary 〈 或 者 不 管 它 ， 默 认 就 是 Primary) 。 如 果 没 有 主 节 点 ， 查 询 
就 会 出 错 。 这 就 是 说 ， 如 果 主 节点 挂 了 ， 应 用 程序 就 不 能 执行 查询 了 。 
但 是 ， 如 果 你 的 应 用 程序 需要 在 故障 转移 期 间或 者 出 现 网 络 故 障 时 正常 
运行 ， 或 者 不 接受 陈旧 的 数据 ， 那 么 这 就 是 一 个 可 接受 的 选项 。 


























11.4.2 ”出 于 负载 的 考虑 


许多 用 户 会 将 读 请 求 发 送 给 备份 节点 ， 以 便 实 现 分 布 式 负 载 。 例 如 ， 如 
果 你 的 服务 器 每 秒 只 能 处 理 10 000 次 查询 ， 而 你 需要 进行 30 ”000 次 查 
询 ， 可 能 就 需要 设置 几 个 备份 节点 ， 并 且 让 它们 分 担 一 些 数据 加 载 的 工 
作 。 但 是 ， 这 种 扩展 方式 非常 危险 ， 很 容易 导致 系统 意外 过 载 ， 一 旦 出 
现 这 种 问题 ， 很 难 恢复 。 


假设 你 遇 到 了 上 面 提 到 的 情况 : 每 秒 30 000 次 读 请 求 。 你 决定 创建 一 个 
拥有 4 个 成 员 的 副本 集 : 每 个 备份 节点 的 压力 都 在 可 承受 范围 彤 ， 整 个 
系统 也 在 正常 运转 。 


后 来 ， 茶 一 个 备份 节点 毅 洗 了 。 


现在 剩余 的 每 个 成 员 的 负载 都 是 100%。 如 果 需 要 恢复 刚刚 裔 误 的 成 
员 ， 它 就 需要 从 其 他 成 员 处 复制 数据 ， 这 就 会 导致 其 他 成 员 过 载 。 服 务 
俐 过 载 经 常 导 致 性 能 变 慢 ， 副 本 集 性 能 进一步 降低 ， 然 后 强制 其 他 成 员 
承担 更 多 的 负载 ， 导 致 这 些 成 员 变 得 更 慢 ， 这 是 一 个 恶性 死 循 环 。 


过 载 会 导致 副本 集 性 能 降低 ， 然 后 会 导致 剩余 的 备份 节点 远 远 落后 于 主 
节点 。 突 然 间 ， 你 的 副本 集中 就 有 一 个 成 员 骨 沉 了 ， 还 有 一 个 成 员 远 远 
落后 于 主 节 点 ， 导 致 副本 集 的 所 有 成 员 都 过 载 了 ， 进 而 整个 副本 集 都 没 
有 喘 妃 的 空间 。 


如 果 明 确 知 道 每 台 服 务 器 能 够 承受 的 负载 ， 你 可 能 会 觉得 自己 能 够 更 好 
地 应 对 这 种 情况 : 使 用 5 人 台 服 务 器 ， 而 不 是 4 台 ， 这 样 如 果 一 台 服 务 器 出 
溃 ， 并 不 会 导致 副本 集 过 载 。 但 是 ， 即 使 你 的 计划 非常 完美 《只 有 预期 
数量 的 服务 器 可 能 会 挂 征 ) ， 仍 然 需 要 处 理 其 他 服务 器 负载 过 大 的 情 

况 。 


一 个 更 好 的 选择 是 ， 使 用 分 片 作 分 布 式 负载 。 第 13 革 介绍 分 片 相关 的 知 


识 。 
11.4.3” 何 时 可 以 从 备份 节点 读 取 数据 
在 某 些 情况 下 ， 将 读 请 求 发 送 给 备份 节点 是 合理 的 。 例 如 ， 你 可 能 希望 


应 用 程序 在 主 三 点 挂 掉 时 仍然 能 够 执行 读 操 作 (而 且 你 并 不 在 意 读 到 的 
数据 是 人 否 是 最 新 的 ) 。 这 是 最 常见 的 将 读 请 求 发 给 送 备 份 节点 的 原因 : 



































失去 主 市 的 时 ， 应 用 程序 进入 只 读 状 态 。 这 种 读 选项 叫做 主 市 点 优 先 


(primary preferred) 。 


从 备份 节点 读 取 数据 有 一 个 音 见 的 参数 是 获得 低 延 迟 的 数据 。 可 以 将 读 
选项 设置 为 Nearest， 以 便 将 请 求 路 由 到 延迟 最 低 的 成 员 《 根 据 驱 动 程 
序 到 副本 集成 员 的 ping 时 间 ) 。 如 果 你 的 应 用 程序 需要 从 多 个 数据 中 心 
中 读 取 到 了 最 低 延 迟 的 同一 个 文档 ， 这 是 唯一 的 方法 。 如 果 你 的 文档 与 位 
置 的 相关 性 更 大 《在 这 个 数据 中 心 内 的 应 用 服务 器 需要 得 到 茶 些 文档 的 
最 低 延 迟 版 本 ， 而 妨 一 个 数据 中 心 内 的 应 用 服务 占 需 要 得 到 力 一 些 文档 
的 最 低 延 迟 版 本 ) ， 那 就 应 该 使 用 分 片 。 注 意 ， 如 果 应 用 程 友 要 求 低 延 
人 述 的 读 和 写 ， 那 必须 要 使 用 分 请: 副本 集 只 允许 在 主 市 态 上 进行 写 操作 
(不 管 主 节点 在 什么 位 置 〉。 


如 果 要 从 一 个 落后 的 备份 硬 反 读 取 数 据 ， 束 要 牺牲 一 臻 性。 为 一 方面 ， 
如 末 硕 望 写 操作 返回 之 前 被 复制 到 所 有 副本 集成 员 ， 束 要 牺牲 写 入 速 


度 。 


如 果 应 用 程序 能 够 接受 任何 陈旧 程序 的 数据 ， 那 就 可 以 使 用 secondary 
或 者 secondary “preferred 读 选项 。Ssecondary 始 终 会 将 读 请 求 发 送 给 备 
份 节点 。 如 果 没 有 可 用 的 备份 节点 ， 请 求 就 会 出 错 ， 而 不 是 重新 将 读 请 
求 发 送 给 主 节 点 。 对 于 不 在 乎 数据 新 旧 程 度 并 且 和 希望 主 节 点 只 处 理 写 请 
求 的 应 用 程序 来 说 ， 这 是 一 种 可 行 的 方式 。 如 果 对 于 数据 新 旧 程 度 有 要 
求 ， 不 建议 使 用 这 种 方式 。 


Secondary preferred 会 优先 将 读 请 求 路 由 到 可 用 的 备份 节点 。 如 果 备 份 
节点 都 不 可 用 ， 请 求 就 会 被 发 送 到 主 节点 。 


有 时 ， 读 负载 与 写 负 载 完全 不 同 : 读 到 的 数据 与 写 入 的 数据 是 完全 不 同 
的 。 为 了 做 离线 处 理 ， 你 可 能 和 希望 创建 很 多 索引 ， 但 是 又 不 想 将 这 些 索 
引 创建 在 主 节点 上 。 在 这 种 情况 下 ， 可 以 设置 一 个 与 主 节 点 拥有 不 同 家 
引 的 备份 节点 。 如 果 希 望 以 这 种 方式 使 用 备份 节点 ， 最 好 是 使 用 驱动 程 
序 创建 一 个 直接 连接 到 目标 备份 节点 的 连接 ， 而 不 是 连接 到 副本 集 。 


应 该 根据 应 用 程序 的 实际 需要 选择 合适 的 选项 。 也 可 以 将 多 个 选项 组 合 
在 一 起 使 用 : 如 果菜 些 读 请 求 必 须 从 主 节点 读 取 数据 ， 那 就 对 这 些 请 求 
使 用 Primary 选 项 。 如 果 另 一 些 读 请 求 并 不 要 求 数据 是 最 新 的 ， 那 么 可 
以 对 这 些 读 请 求 使 用 primary preferred 选 项 。 如 果 某 些 请 求 对 低 迟 延 的 
要 求 大 过 一 致 性 要 求 ， 那 么 可 以 使 用 Nearest 选 项 。 












































第 12 章 ”管理 
本 音 介 绍 副本 集 管理 的 相关 知识 ， 包 括 ; 





维护 独立 的 成 员 ; 

在 多 种 不 同情 况 下 配置 副本 集 ; 

获取 oplog 相 关 信 息 ， 以 及 调整 oplog 大 小 ; 
特殊 的 副本 集 配 置 ; 

从 主 从 模式 切换 到 副本 集 模式 。 


12.1 以 单机 模式 局 动 成 员 

许多 维护 工作 不 能 在 备份 节点 上 进行 《因为 要 执行 写 操 作 ) ， 也 不 能 在 
主 节 点 上 进行 。 后 面 几 节 会 经 党 所 到 以 单机 模式 (standalone mode) 局 
动 服务 右 。 这 是 指 要 重 朋 成员 服务 器 ， 让 它 成 为 一 个 单机 运行 的 服务 
船 ， 而 不 再 是 一 个 副本 集成 员 《〈 这 只 是 临时 的 ) 。 

在 以 单机 模式 局 动 服 务 器 之 前 ， 先 看 一 下 服务 器 的 命令 行 参数 : 


> db.servercmdLineOpts() 
{ 











"argv" : [ "mongod", "-f", "/var/lib/mongod.conf" ], 
replSet": "mySet", 

放 [0) ps 
"dbpath": "/var/lib/db" 


ok"” :1 
} 


如 果 要 对 这 人 台 服 务 器 进行 维护 ， 可 以 重 司 服务 器 ， 重 局 时 不 使 

用 replset 选 项 。 这 样 它 就 会 成 为 一 个 单机 的 mongod， 可 以 对 其 进行 读 
和 写 。 我 们 不 希望 副本 集中 的 其 他 服务 喜 联 系 到 这 人 台 服 务 器 ， 所 以 可 以 
让 和 它 监 听 不 同 的 端口 《这 样 副 本 集 的 其 他 成 员 就 找 不 到 它 了 ) 。 最 后 ， 
保持 dbpath 的 值 不 变 ， 因 为 重 局 后 要 对 这 全 服务 器 的 数据 做 一 些 操 作 。 
好 了 ， 我 们 最 终 可 以 用 下 面 这 样 的 参数 司 动 服务 天 : 


$ mongod --port 30000 --dbpath /var/lib/db 








现在 这 合 服务 器 已 经 在 单机 模式 中 运行 了 了， 监听 着 30000 端 口 的 连接 请 
求 。 副 本 集中 的 其 他 成 员 仍 然 会 试图 连接 到 它 的 27017 端 口 ， 所 以 会 连 
接 失 败 ， 其 他 成 员 就 会 以 为 这 合 服务 器 挂 兵 了 。 


当 在 这 台 服 务 器 上 执行 完 维护 工作 之 后 ， 可 以 以 最 原始 的 参数 重新 局 动 
它 。 局 动 之 后 ， 它 会 自动 与 副本 集中 的 其 他 成 员 进 行 同步 ， 将 维护 期 间 
落下 的 操作 全 部 复制 过 来 。 


12.2 ”副本 集 配 置 


副本 集 配 置 总 是 以 一 个 文档 的 形式 保存 在 local.system.replSet 集 合 中 。 副 
本 集中 所 有 成 员 的 这 个 文档 都 是 相同 的 。 绝 对 不 要 使 用 update 更 新 这 个 
文档 ， 应 该 使 用 rs 辅助 函数 或 者 replsetReconfig 命 令 修 改 副本 集 配 置 。 


12.2.1 创建 副本 集 


创建 副本 集 的 步骤 很 简单 ， 首 先 启动 所 有 成 员 服 务 器 ， 然 后 使 
用 rs.initiate 命 令 将 配置 文件 传递 给 其 中 一 个 成 员 : 


> Var config = { 
... "_id" : setName, 
.. "members" : [ 
{"_id" : 0, "host" : host1}, 
{"_id" : 1, "host" : host2}, 
{"_id" : 2, "host" : host3} 




















> rs,initiate(config) 
应 该 总 是 传递 一 个 配置 对 象 给 rs,initiate， 否则 MongoDB 会 目 动 生成 
一 个 针对 单 成 员 副 本 集 的 配置 ， 其 中 的 主机 名 可 能 不 是 你 希望 的 。 


只 需要 对 副本 集中 的 一 个 成 员 调 用 rs.initiate 束 可 以 了 。 收 到 initiate 
命令 的 成 员 会 自动 将 配置 文件 传递 给 副本 集中 的 其 他 成 员 。 


12.2.2 ”修改 副本 集成 员 

加 副本 集中 添加 新 成 员 时 ， 这 个 新 成 员 的 数据 目录 要 么 是 空 的 (在 这 种 
情况 下 ， 新 成 员 会 执行 初始 化 同步 ) ， 要 么 新 成 员 拥 有 一 份 其 他 成 员 的 
数据 副本 。 关 于 副本 集成 员 备 份 和 恢复 相关 的 知识 ， 可 以 查看 第 22 章 。 


连接 到 主 市 点 并 且 添 加 新 成 员 : 

















> rs.add("spock:27017") 


也 可 以 以 文档 的 形式 为 新 成 员 指定 更 复杂 的 配置 : 


> rs.add({"_id" : 5, "host" : "spock:27017", "priority" : 0, "hidden" : true}) 


可 以 根据 "host" 字 段 将 成 员 从 副本 集中 移 除 : 


> rs.remove("spock:27017") 





可 以 通过 rs .reconfig 修 改 副本 集成 员 的 配置 。 修 改 副 本 集成 员 配 置 
时 ， 有 几 个 限制 需要 注意 : 





。 不 能 修改 成 员 的 " id" 字段 
。 不 能 将 接收 rs.reconfig 命 令 的 成 员 〈 通 常 是 主 节 点 ) 的 优先 级 设 


为 0; 

。 不 能 将 仲裁 者 成 员 变 为 非 仲 裁 者 成 员 ， 反 之 亦 然 ; 

。 不 能 将 "buildIndexes" :false 的 成 员 修 改 为 "buildIndexes" 
trueo 








需要 注意 的 是 ， 可 以 修改 成 员 的 "host" 字 段 。 这 意味 着 ， 如 果 为 副本 集 
成 员 指 定 了 不 正确 的 主机 名 《比如 使 用 了 公 网 耳 而 不 是 内 网 卫 ) ， 之 后 
可 以 重新 修改 成 员 的 主机 名 。 


下 面 是 一 个 修改 主机 名 的 例子 : 


> Var config = rs.config() 

> config.members[0].host = "spock:27017" 
spock:27017 

> rs.reconfig(config) 








修改 其 他 选项 的 方式 也 是 一 样 的 : 使 用 rs.config 得 到 当前 配置 文件 ， 
修改 配置 文件 ， 将 修改 后 的 配置 文件 传递 给 rs.reconfig 束 可 以 了 。 


12.2.3 创建 比较 大 的 副本 集 
副本 集 最 多 只 能 拥有 12 个 成 员 ， 其 中 只 有 7 个 成 员 拥 有 投票 权 。 这 是 为 





了 减少 心跳 请 求 的 网 络 流 量 〈 每 个 成 员 都 要 癌 其 他 所 有 成 员 发 送 心跳 请 
求 ) 和 选举 花费 的 时 间 。 实 际 上 ， 副 本 集 还 有 更 多 的 限制 ， 如 果 需 要 11 
个 以 上 的 备份 节点 ， 可 以 查看 12.5 节 。 


如 果 要 创建 7 个 以 上 成 员 的 副本 集 ， 只 有 7 个 成 员 可 以 拥有 投票 权 ， 需 要 
将 其 他 成 员 的 投票 数量 设置 为 0: 


> rs.add({"_id" : 7, "host" : "server-7:27017", "votes" :; 0}) 





这 样 可 以 阻止 这 坚 成 员 在 选举 中 投 主动 聚 ， 昌 然 它 们 仍然 可 以 投 奋 决 


~、o 


应 该 尽量 避免 修改 成 员 的 投票 数量 。 投 票 可 能 会 对 选举 和 一 致 性 产生 怪 
异 的 、 不 直观 的 影响 。 应 该 只 在 创建 包含 7 个 以 上 成 员 的 副本 集 或 者 是 
希望 阻止 自动 故障 转移 〈 详 见 12.5.2 节 ) 时 ， 使 用 "votes" 选 项 。 很 多 开 
发 者 会 误 以 为 让 成 员 拥有 更 多 投票 权 会 使 这 个 成 员 更 容易 被 选 为 主 节点 
实际 上 根本 不 会 ) 。 如 采 硕 望 共 个 成 员 可 以 优先 被 选举 为 主 节点 ， 应 
该 使 用 优先 级 〈 详 见 9.6.2 节 ) 。 


12.2.4 强制 重新 配置 

如 果 副 本 集 无 法 再 达到 “大 多 数 ” 要 求 的 话 ， 那 么 它 就 无 法 选举 出 新 的 主 
节点 ， 这 时 你 可 能 会 希望 重新 配置 副本 集 。 这 看 起 来 有 点 奇怪 ， 因 为 通 
常 都 是 将 配置 文件 发 送 给 主 节点 。 在 这 种 情况 下 ， 可 以 在 备份 节点 上 调 


用 rs.reconfig 强 制 重 新 配置 (force reconfigure) 副本 集 。 在 shell 中 连接 
到 一 个 备份 节点 ， 使 用 "force" 选 项 执行 rs.reconfig 命 令 : 


> rs.reconfig(config, {"force" : true}) 











强制 重新 配置 与 普通 的 重新 配置 要 遵守 同样 的 规则 : 必须 使 用 正确 的 
reconfig 选 项 将 有 效 的 、 格 式 完 好 的 配置 文件 发 送 给 成 员 。'"force" 选 项 
不 允许 无 效 的 配置 ， 而 且 只 人 允许 将 配置 发 送 给 备份 节点 。 


强制 重新 配置 会 跳 过 大 量 的 数值 直接 将 副本 集 的 "version" 设 为 一 个 比 
较 大 的 值 。 可 能 会 见 到 跳 过 数 千 的 情况 ， 这 很 正常 ， 这 是 为 了 防 
止 "version" 字 上 段 冲突 (以 防 不 同 的 网 络 域 中 都 在 进行 重新 配置 )。 








备份 节点 收 到 新 的 配置 文件 之 后 ， 就 会 修改 自身 的 配置 ， 并 且 将 新 的 配 
置 发 送 给 副本 集中 的 其 他 成 员 。 副 本 集 的 其 他 成 员 收 到 新 的 配置 文件 之 
后 ， 会 判断 配置 文件 的 发 送 者 是 否 是 它们 当前 配置 中 的 一 个 成 员 ， 如 果 
是 ， 才 会 用 新 的 配置 文件 对 自己 进行 重新 配置 。 所 以 ， 如 果 新 的 配置 会 
修改 某 些 成 员 的 主机 名 ， 应 该 将 新 的 配置 发 送 给 主机 名 不 发 生变 化 的 成 
员 。 如 果 新 的 配置 文件 修改 了 所 有 成 员 的 主机 名 ， 应 该 关闭 副本 集 的 每 
以 单机 模式 局 动 ， 手 动 修 改 jocal.system.replset 文 要 ， 然 后 重 
新 局 动 。 


12.3 ”修改 成 员 状 态 


为 进行 维护 或 啊 应 加 载 ， 有 多 种 方式 可 以 手动 修改 成 员 的 状态 。 注 意 ， 
无 法 强制 将 菏 个 成 员 变 成 主 节 点 ， 除 非 对 副本 集 做 适当 的 配置 。 


12.3.1 把 主 节 点 变 为 备份 节点 


可 以 使 用 steppown 函 数 将 主 节点 降级 为 备份 节点 : 


> rs.stepDown() 








这 个 命令 可 以 让 主 贡 点 退化 为 备份 节点 ， 并 维持 60 秒 。 如 宁 这 段 时 间 内 
没有 新 的 主 节点 被 选举 出 来 ， 这 个 节点 驶 可 以 要 求 重新 进行 选举 。 如 果 
希望 主 节点 退化 为 备份 节点 并 持续 更 长 〈 或 者 更 短 ) 的 时 间 ， 可 以 自己 
指定 时 间 (以 秒 为 单位 〉: 


> rs.stepDown(600) // 410 分钟 











12.3.2 ”阻止 选举 


如 果 需 要 对 主 市 点 做 一 些 维 护 ， 但 是 不 希望 这 段 时 间 内 将 其 他 成 员 选 举 
为 主 市 点 ， 那 么 可 以 在 每 个 备份 节点 上 执行 freeze 命 令 ， 以 强制 它们 始 
终 处 于 备份 节点 状态 : 


> rs.freeze(10000) 














人 


维护 完成 之 后 ， 如 宁 想 “释放 "其 他 成 员 ， 可 以 再 次 执行 freeze 命 令 ， 将 
时 间 指 定 为 0 即 可 : 


> rs.freeze(0) 


这 样 ， 其 他 成 员 就 可 以 在 必要 时 申请 被 选举 为 主 节 点 。 


也 可 以 在 主 节 点 上 执行 rs,freeze(9)， 这 样 可 以 将 退位 的 主 节点 重新 变 
为 主 节 点 。 


12.3.3 ”使 用 维护 模式 


当 在 副本 集成 员 上 执行 某 个 非常 耗 时 的 操作 时 ， 这 个 成 员 束 人 进入 维护 
模式 (maintenance mode) : 强制 成 员 进 入 RECOVERING 状 态 。 有 时 ， 成 
员 会 自动 进入 维护 模式 ， 比 如 在 成 员 上 做 压缩 时 。 压 缩 开 始 之 后 ， 成 员 
会 进入 RECOVERING 状 态 ， 这 样 就 不 会 有 读 请 求 发 送 给 这 个 成 员 。 客 户 端 
会 停止 从 这 个 成 员 读 取 数据 〈 如 果 之 前 有 从 这 个 成 员 读 数据 的 话 ) ， 这 
个 成 员 也 不 能 再 作为 复制 源 。 


也 可 以 通过 执行 replsetMaintenanceMode 命 令 强 制 一 个 成 员 进 入 维护 模 
式 。 如 果 一 个 成 员 远 远 落 后 于 主 节 点 ， 你 不 希望 它 继续 处 理 读 请 求 时 ， 
可 以 强制 让 这 个 成 员 进 入 维护 模式 。 例 如 ， 下 面 这 个 脚本 会 自动 检测 成 
0 如 果 是 ， 就 强制 将 这 个 成 员 转 入 维护 模 
工 N 














function maybeMaintenanceMode() { 
var local = db.getSisterDB("1local"); 


// 如 果 成 员 不 是 备份 节点 《〈 它 可 能 是 主 节 点 

// 或 者 已 经 处 于 维护 状态 ) ， 就 直接 返 臣 

if (!local.isMaster().secondary) { 
return; 

} 


// 查找 这 个 成 员 最 后 一 次 操作 的 时 间 
var last = local.oplog.rs.find().sort({"$natural" : -1}).next(); 
var lastTime = last['ts']['t']; 


















































// 如 果 落 后 主 节点 30 秒 以 上 

if (lastTime < (new Date()).getTime()-30) { 
db.adminCommand({"replSetMaintenanceMode" : true}); 

} 


}; 





将 成 员 从 维护 模式 中 恢复 ， 可 以 使 用 如 下 命令 : 


> db.adminCommand({"replSetMaintenanceMode" : false}); 


12.4 监控 复制 


监控 副本 集 的 状态 非常 重要 : 不 仅 要 监控 是 否 所 有 成 员 都 可 用 ， 也 要 监 
控 每 个 成 员 处 于 什么 状态 ， 以 及 每 个 成 员 的 数据 新 旧 程 度 。 有 多 个 命令 
可 以 用 来 查看 副本 集 相 关 信 息 。MMS 〈 详 见 第 21 章 ) 也 维护 着 一 些 与 
复制 相关 的 信息 。 


与 复制 相关 的 故障 通 冲 都 是 很 短暂 的 : 一 个 服务 器 刚才 还 连接 不 到 妃 一 
个 服务 器 ， 但 是 现在 又 可 以 连 上 了 。 要 和 奉 看 这 样 的 问题 ， 最 简单 的 方式 
就 是 查看 日 志 。 确 保 自己 知道 日 志 的 保存 位 置 〈 而 且 真 的 被 保存 下 

来 ) ， 确 保 能 够 访问 到 它们 。 


12.4.1 获取 状态 
replsetGetstatus 是 一 个 非常 有 用 的 命令 ， 可 以 返回 副本 集中 每 个 成 员 


的 当前 信息 〈 这 里 的 “当前 ”是 从 每 个 成 员 和 上 自身 的 角度 来 说 的 ) 。 这 个 命 
令 还 有 一 个 对 应 的 辅助 函数 rs.status: 


> rs.status() 























"set™" : "spock", 

"date" : ISODate("2012-10-17T18:17:522"), 
"myState" : 2, 

"syncingTo" : "server-1:27017", 

"members" : [ 


"_id" : 0, 

"name" : "server-1:27017", 

"health" : 1, 

"state" : 1, 

"stateStr" : "PRIMARY", 

"uptime" : 74824, 

"optime" : { "t" : 1350496621000, "i" :; 13}, 
"optimeDate" : ISODate("2012-10-17T17:57:012"), 
"lastHeartbeat" : ISODate("2012-10-17T17:57:002"), 


"pingMs" :; 3, 
}, 
{ 
"_id" : 1, 
"name" : "server-2:27017", 
"health" : 1, 
"state" : 2, 
"stateSstr" : "SECONDARY", 


"uptime" : 161989, 


"optime" : { "t" : 1350377549000，"i" : 500 }, 
"optimeDate" : ISODate("2012-10-17T17:57:002"), 


"self" : true 
}, 
{ 
号 注册 : 2, 
"name" : "server-3:27017", 
"health" : 1, 
"state" : 3, 
"stateSstr" : "RECOVERING", 
"uptime" : 24300, 
"optime" : { "t" : 1350411407000, "i" :; 739 }, 
"optimeDate" : ISODate("2012-10-16T18:16:47Z")， 
"lastHeartbeat" : ISODate("2012-10-17T17:57:012Z"), 
"pingMs" : 12, 
"errmsg" : "still syncing, not yet to minValid optime 507e9a30:851" 
} 
], 
rok" 1 


下 面 分 别 介绍 几 个 最 有 用 的 字段 。 


@ self 
这 个 字段 只 会 出 现在 执行 rs .status() 函 数 的 成 员 信息 中 ， 在 本 例 


中 是 server-2。 


@ StateStr 


用 于 描述 服务 器 状态 的 字符 串 。 关 于 成 员 不 同 状 态 的 描述 ， 可 以 查 
看 10.2.1 节 。 





e uptime 
从 成 员 可 达 一 直到 现在 所 经 历 的 时 间 ， 单 位 是 秒 。 对 于 "self" 成 
员 ， 这 个 值 是 从 成 员 局 动 一 直到 现在 的 时 间 。 因 此 ，server-2 已 经 
启动 161 989 秒 了 “大约 45 小 时 ) 。server-1 在 过 去 的 21 小 时 中 一 直 
处 于 可 用 状态 ，server-3 在 过 去 7 小 时 中 一 直 处 于 可 用 状态 。 





e optimeDate 
每 个 成 员 的 oplog 中 最 后 一 个 操作 发 生 的 时 间 《 也 融 是 操作 被 同步 
过 来 的 时 间 ) 。 注 意 ， 这 里 的 状态 是 每 个 成 员 通 过 心跳 报告 上 来 的 
状态 ， 所 以 optime 跟 实际 时 间 可 能 会 有 几 秒 钟 的 侦 差 。 





e lastHeartbeat 


当前 服务 器 最 后 一 次 收 到 其 他 成 员 心 跳 的 时 间 。 如 宋 网 络 故 障 或 者 


当前 服务 颖 比较 党 忙 ， 这 个 时 间 可 能 会 是 2 秒 钟 之 前 。 


e pingMs 
心跳 从 当前 服务 强 到 达 某 个 成 员 所 花费 的 平均 时 间 ， 可 以 根据 这 个 
字段 选择 从 哪个 成 员 进行 同步 。 





e errmsg 
成 员 在 心跳 请 求 中 返回 的 状态 信息 。 这 个 字段 的 内 容 通 常 只 是 一 些 
状态 信息 ， 而 不 是 错误 信息 。 例 如 ，server-3 的 "errmsg" 字 上段 表示 它 
正 处 于 初始 化 同步 过 程 中 。 这 里 的 十 六 进 制 数 字 507e9a30:851 是 某 
us server-3 至 少 要 同步 完 这 个 操作 才能 完成 同 
消 过 人 性。 


有 几 个 字段 的 信息 是 重复 的 : "state" 与 "statestr" 都 表示 成 员 的 状态 ， 

只 是 "state" 的 值 是 状态 的 内 部 表示 法 。"health" 仅 仅 表示 给 定 的 服务 喜 
是 否 可 达 【可 达 是 1， 不 可 达 是 0) ， 而 从 "state" 和 "statestr" 字 段 也 可 
以 得 到 这 样 的 信息 (如 果 服 务 器 不 可 达 ， 它 们 的 值 会 是 UNKNOWN 或 

者 DOwN) 。 类 似 地 ，"optime" 和 "optimeDate" 的 值 也 是 相同 的 ， 只 是 表 

示 方 式 不 同 : 一 个 是 用 从 新 纪元 开始 的 蝇 秒 数 表示 的 ， 另 一 个 用 一 种 更 
适合 阅读 的 方式 表示 。 


注意 ， 这 份 报告 是 以 执行 rs.status() 命 令 的 成 员 的 角度 得 出 的 : 由 于 
网 络 故 障 ， 这 份 报告 可 能 不 准确 或 者 有 些 过 时 。 


12.4.2 ”复制 图 谱 


如 果 在 备份 节点 上 运行 rs.status()， 输 出 信息 中 会 有 一 个 名 

为 "syncingTo" 的 顶级 字段 ， 用 于 表示 当前 成 员 正 在 从 哪个 成 员 处 进行 

复制 。 如 果 在 每 个 成 员 上 运行 replSsetGetstatus 命 令 ， 束 可 以 弄 清楚 复 
制图 谱 (replication graph) 。 假 设 server1 表 示 连 接 到 server1 的 数据 库 连 
接 ，server2 表 示 连 接 到 server2 的 数据 库 连 接 ， 以 此 类 推 ， 然 后 分 别 在 这 
些 连 接 上 执行 下 面 的 命令 : 


> serveri.adminCommand({replSetGetStatus: 1})['syncingTo'] 
server0:27017 
> server2.adminCommand({replSetGetStatus: 1})['syncingTo'] 
Server1:27017 
> server3.adminCommand({replSetGetStatus: 1})['syncingTo'] 
server1:27017 
> server4.adminCommand({replSetGetStatus: 1})['syncingTo'] 
server2:27017 

















所 以 ，server0 是 server1 的 同步 源 ，server1 是 server2 和 server3 的 同步 源 ， 
server2 是 server4 的 同步 源 。 


MongoDB 根 据 ping 时 间 选 择 同步 源 。 一 个 成 员 回 男 一 个 成 员 发 送 心跳 请 
求 ， 就 可 以 知道 心跳 请 求 所 耗费 的 时 间 。MongoDB 维 护 着 不 同 成 员 间 
请 求 的 平均 花费 时 间 。 选 择 同 步 源 时 ， 会 选择 一 个 离 目 己 比 较 近 而 且 数 
据 比 自己 新 的 成 员 〈 所 以 ， 不 会 出 现 循环 复制 的 问题 ， 每 个 成 员 要 么 从 
主 节 点 复制 ， 要 么 从 数据 比 它 新 的 成 员 处 复制 ) 。 


因此 ， 如 果 在 备份 数据 中 心中 添加 一 个 新 成 员 ， 它 很 可 能 会 从 与 自己 同 
在 一 个 数据 中 心 内 的 其 他 成 员 处 复制 ， 而 不 是 从 位 于 为 一 个 数据 中 心 的 
主 节 点 处 复制 (这 样 可 以 减少 网 络 流量 ) ， 如 图 12-1 所 示 。 








图 12-1 新 的 备份 节点 通 第 会 从 与 自己 处 于 同一 个 数据 中 心 的 其 他 成 
员 进 行 复制 


但 是 ， 自 动 复制 链 (automatic replication chaining) 也 有 一 些 缺 点 : 复制 
链 越 长 ， 将 写 操作 复制 到 所有 服务 器 所 花费 的 时 间 就 越 长 。 假 设 所 有 服 
务 占 都 位 于 同一 个 数据 中 心 内 ， 人 然后， 由 于 网 络 速度 异常 ， 新 添加 一 个 
成 员 之 后 ，MongoDB 的 复制 链 如 图 12-2 所 示 。 








图 12-2 ”复制 链 越 长 ， 将 数据 同步 到 全 部 服务 器 花费 的 时 间 就 越 长 


通常 不 太 可 能 发 生 这 样 的 情况 ， 但 是 并 非 不 可 能 。 但 这 种 情况 通常 是 不 
可 取 的 : 复制 链 中 的 每 个 备份 节点 都 要 比 它 前 面 的 备份 节点 稍微 落后 一 
点 。 只 要 出 现 这 种 状况 ， 可 以 用 replsetsyncFrom (或 者 是 它 对 应 的 辅助 
函数 rs.syncFrom()) 命令 修改 成 员 的 复制 源 进行 修复 。 


连接 到 需要 修改 复制 源 的 备份 节点 ， 运 行 这 个 命令 ， 为 其 指定 一 个 复制 
源 


. 
Ne 





> secondary.adminCommand({"replSetSyncFrom" : "server0:27017"}) 


可 能 要 花费 几 秒 钟 的 时 间 才 能 切换 到 新 的 复制 源 。 如 果 在 这 个 成 员 上 再 
次 执行 rs .status()， 会 发 现 "syncingTo" 字 段 的 值 已 经 变 成 
了 "server0:27017"。 


现在 ，server4 会 一 直 从 server0 进 行 复制 ， 直 到 server0 不 可 用 或 者 远 远 落 
后 于 其 他 成 员 为 止 。 


12.4.3 ”复制 循环 


如 果 复 制 链 中 出 现 了 环 ， 那 么 就 称 为 发 生 了 复制 循环 。 例 如 ，A 从 B 处 
同步 数据 ，B 从 C 处 同步 数据 ，C 从 A 处 同步 数据 ， 这 就 是 一 个 复制 循 


环 。 因 为 复制 循环 中 的 成 员 都 不 可 能 成 为 主 节点 ， 所 以 这 些 成 员 无 法 复 
制 新 的 写 操 作 ， 就 会 越 来 越 落后 。 另 一 方面 ， 如 条 每 个 成 员 都 是 目 动 选 
取 复 制 源 ， 那 么 复制 循环 是 不 可 能 发 生 的 。 


但 是 ， 使 用 replsetsyncFrom 强 制 为 成 员 设置 复制 源 时 ， 就 可 能 会 出 现 复 
制 循环 。 在 手动 修改 成 员 的 复制 源 时 ， 应 该 仔细 查看 rs.status() 的 输 
出 信息 ， 避 免 造成 复制 循环 。 当 用 replsetsyncFrom 为 成 员 指 定 一 个 并 不 
Ce 系统 会 给 出 警告 ， 但 是 仍然 允许 这 么 


12.4.4 禁用 复制 链 


当 一 个 备份 节点 从 另 一 个 备份 节点 《而 不 是 主 节 点 ) 复制 数据 时 ， 就 会 
形成 复制 链 。 前 面 说 过 ， 成 员 会 目 动 选择 其 他 成 员 作为 复制 源 。 


可 以 禁用 复制 链 ， 强 制 要 求 每 个 成 员 都 从 主 节点 进行 复制 ， 只 需要 
将 "allowchaining" 设 置 为 false 即 可 〈 如 果 不 指定 这 个 选项 ， 默 认 
是 true) : 




















> Var config = rs,config() 

> // 如 果 设 置 子 对 象 不 存在 ， 就 自动 创建 一 个 空 的 

> config.settings = config,settings || 癸 
> config.settings.allowChaining = false 
> rs.reconfig(config) 















































将 allowchaining 设 置 为 false 之 后 ， 所 有 成 员 都 会 从 主 市 反复 制 数据 。 
3 扩 变 得 不 可 用 ， 那 么 各 个 成 员 就 会 从 其 他 备份 太 反 处 复制 数 


12.4.5 “计算 延迟 


跟踪 复制 情况 的 一 个 重要 指标 是 备份 节点 与 主 贡 点 之 间 的 延迟 程度 。 延 
述 (lag) 是 指 备份 节 点 相对 于 主 贡 点 的 落后 程度 ， 是 主 节 点 最 后 一 次 
操作 的 时 间 埠 与 备份 节点 最 后 一 次 操作 的 时 间 戳 的 兰 。 


可 以 使 用 rs.status() 查 看 成 员 的 复制 状态 ， 也 可 以 通过 在 主 节 点 上 执 
行 db .printReplicationInfo()〔 这 个 命令 的 输出 信息 中 包括 oplog 相 关 
言 轧 ) ， 或 者 在 备份 节点 上 执行 db ,printslaveReplicationInfo() 快 速 
得 到 一 份 摘要 信息 。 注 意 ， 这 两 个 都 是 db 的 函数 ， 而 不 是 rs 的 。 











db.printReplicationInfo 的 输出 中 包括 主 节点 的 oplog 信 息 : 


> db.printReplicationInfo(); 


configured oplog size: 10.48576MB 

lo0og length start to end: 34secs (0.01hrs) 

oplog first event time: Tue Mar 30 2010 16:42:57 GMT-0400 (EDT) 
oplog last event time: Tue Mar 30 2010 16:43:31 GMT-0400 (EDT) 
Now: Tue Mar 30 2010 16:43:37 GMT-0400 (EDT) 


上 面 的 输出 信息 中 包含 了 oplog 的 大 小 ， 以 及 oplog 中 包含 的 操作 的 时 间 
人 
控 


在 实际 的 部 署 中 ，oplog 会 大 得 多 (12.4.6 节 会 讲述 如 何 修改 oplog 的 大 
小 ) 。 我 们 希望 oplog 的 长 度 至 少 要 能 够 容纳 一 次 完整 同步 的 所 有 操 
作 。 这 样 ， 备 份 贡 点 就 不 会 在 完成 初始 化 同步 之 前 与 oplog 脱 节 。 


-Sy 





,0plog 中 第 一 条 操作 与 最 后 一 条 操作 的 时 间 差 就 是 操作 
日 志 的 长 度 。 如 果 服 务 器 才刚 刚 启 动 ， 刚 启动 时 的 oplog 是 空 的 ， 
那么 oplog 中 的 第 一 条 操作 会 距离 现在 非常 近 。 在 这 种 情况 下 ， 日 
志 长 度 会 比较 小 ， 即 使 oplog 仍 然 有 可 用 空间 。 对 于 那些 已 经 运行 
了 比较 长 的 时 间 ，oplog 已 经 至 少 被 填 满 一 次 的 服务 器 来 说 ， 日 志 
长 度 是 一 个 非常 有 用 的 度量 指标 。 


在 备份 节点 上 运行 db.printSlaveRepLicationInfo()， 可 以 得 到 当前 成 
员 的 复制 源 ， 以 及 当前 成 员 相 对 复制 源 的 落后 程度 等 信息 : 


> db.printSlaveReplicationInfo( ) ， 
source: server-0:27017 
syncedTo: Tue Mar 30 2012 16:44:01 GMT-0400 (EDT) 
= 12secs ago (Ohrs) 














这 样 就 可 以 知道 当前 成 员 正 在 从 哪个 成 员 处 复制 数据 。 在 这 个 例子 中 ， 
备份 节点 比 主 节点 落后 12 秒 。 


注意 ， 副 本 集成 员 的 延迟 是 相对 于 主 节 点 来 次 的 ， 而 不 是 表示 需要 多 长 








时 间 才 能 更 新 到 最 新 。 在 一 个 与 操作 非常 少 的 系统 中 ， 有 可 能 会 造成 延 
述 过 大 的 和 幻觉。 假设 一 小 时 执行 一 次 写 操 作 。 刚 刚 执行 完 这 次 写 操 作 之 
后 ， 复 制 之 前 ， 备 份 节 点 会 落后 于 主 市 皮 一 小 时 。 但 是 ， 只 需要 几 坚 秒 
时 ， 备 份 节点 就 可 以 退 上 主 市 点 。 当 监控 低 否 吐 量 的 系统 时 ， 这 个 值 可 
能 会 造成 迷惑 。 


12.4.6 ”调整 oplog 大 小 


可 以 将 主 节点 的 oplog 长 上 度 看 作 维 护 工作 的 时 间 窗 。 如 果 主 市 点 的 oplog 
长 度 是 一 小 时 ， 那 么 你 就 只 有 一 小 时 的 时 间 可 以 用 于 修复 各 种 错误 ， 不 
然 的 话 备份 节点 可 能 会 落后 于 主 节 点 太 多 ， 导 致 不 得 不 重新 进行 完全 同 
步 。 所 以 ， 你 通常 可 能 希望 oplog 能 够 保存 儿 天 或 者 一 个 星期 的 数据 ， 
从 而 给 上 自己 预 留 足够 的 时 间 ， 用 于 处 理 各 种 突 发 状况 。 


可 惜 ， 在 oplog 被 填 满 之 前 很 难 知道 它 的 长 度 ， 也 没有 办 法 在 服务 右 运 
行 期 间 调 整 oplog 大 小 。 但 是 ， 可 以 依次 将 每 台 服 务 器 下 线 ， 调 整 它 的 
oplog， 然 后 重新 把 它 添 加 到 副本 集中 。 记 住 ， 每 一 个 可 能 成 为 主 节 点 
W000 
太 。 














如 果 要 增加 oplog 大 小 ， 可 以 按照 如 下 步骤 。 


1. 如 果 当 前 服务 器 是 主 节 点 ， 让 它 退 位 ， 以 便 让 其 他 成 员 的 数据 能 够 
尽快 更 新 到 与 它 一 致 。 

. 关闭 当前 服务 器 。 

3. 将 当前 服务 器 以 单机 模式 局 动 。 


4. 临时 将 oplog 中 的 最 后 一 条 insert 操 作 保存 到 其 他 集合 中 : 


> USe local 
> // op:"i" 用 于 查找 最 后 一 条 Insert 操 作 

> Var cursor = db.oplog.rs.find({"op" : "i"}) 

> Var lastInsert = cursor.sort({"$natural" : -1}). Jimit(1) .next() 
> db.tempLastOp.save(lastIinsert) 


[Be 


























> 
> // 确保 保存 成 功 ， 这 非常 重要 ! 
> db.tempLastop.findone() 





也 可 以 使 用 最 后 一 项 update 或 者 delete 操 作 ， 但 是 $ 操 作 符 不 能 
入 到 集合 中 。 


5. 删除 当前 的 oplog: 


> db.oplog.rs.drop() 


6. 创建 一 个 新 的 oplog: 


> db.createCollection("oplog.rs", {"capped" : true, "size" : 10000}) 


7. 将 最 后 一 条 操作 记录 写 回 oplog: 


> Var temp = db,tempLastop,findone( ) 
> db.oplog.rs.insert(temp) 

> 

> // 要 确保 插入 成 功 

> db.oplog.rs.findone() 








确保 最 后 一 条 操作 记录 成 功 插入 oplog。 如 果 没 有 插入 成 功 ， 把 当 


前 服务 占 添 加 到 副本 集 之 后 ， 它 会 删除 所 有 数据 ， 然 后 重新 进行 一 
次 完整 同步 。 








8. 最 后 ， 将 当前 服务 器 作为 副本 集成 员 重 新 启动 。 注 意 ， 由 于 这 时 它 
的 oplog 只 有 一 条 记录 ， 所 以 在 一 段 时 间 内 无 法 知道 oplog 的 真实 长 
度 。 男 外 ， 这 个 服务 器 现在 也 并 不 适合 作为 其 他 成 员 的 复制 源 。 


通常 不 应 该 减 小 oplog 的 大 小 : 即使 oplog 可 能 会 有 几 个 月 那么 长 ， 但 是 
通常 总 是 有 足够 的 硬盘 空间 来 保存 oplog，oplog 并 不 会 占用 任何 珍贵 的 
资源 (比如 CPU 或 RAM) 。 

12.4.7 ”从 延迟 备份 节点 中 恢复 

假设 有 人 不 小 心 删除 了 一 个 数据 库 ， 科 好 你 有 一 个 延迟 备份 节点 。 现 
在 ， 需 要 放弃 其 他 成 员 的 数据 ， 明 确 将 延迟 备份 节点 指定 为 数据 源 。 有 
几 种 方法 可 以 使 用 。 


下 面 介 绍 最 简单 的 方法 。 








1. 关闭 所 有 其 他 成 员 。 
2. 删除 其 他 成 员 数 据 目 录 中 的 所 有 数据 。 确 保 每 个 成 员 《〈 除 了 延迟 备 
份 节点 ) 的 数据 目录 都 是 空 的 。 








3. 重 局 所 有 成 员 ， 然 后 它们 会 自动 从 延迟 备份 节点 中 复制 数据 。 


这 种 方式 非常 简单 ， 但 是 ， 在 其 他 成 员 完 成 初始 化 同步 之 前 ， 副 本 集中 
将 只 有 一 个 成 员 可 用 《延迟 备份 节点 ) 而 且 这 个 成 员 很 可 能 会 过 载 。 


根据 数据 量 的 不 同 ， 第 二 种 方式 可 能 更 好 ， 也 可 能 更 兰 。 








1. 关闭 所 有 成 员 ， 包 括 延 迟 备 份 节点 。 

2. 删除 其 他 成 员 《 除 了 延迟 备份 节点 ) 的 数据 目录 。 
3. 将 延迟 备份 节 扣 的 数据 文件 复制 到 其 他 服务 器 。 
4. 重启 所 有 成 员 。 


注意 ， 这 样 会 导致 所 有 服务 器 都 与 延迟 备份 节点 拥有 同样 大 小 的 
oplog， 这 可 能 不 是 你 想 要 的 。 


12.4.8 创建 索引 


如 果 疝 主 节点 发 送 创建 索引 的 命令 ， 主 市 点 会 正常 创建 索引 ， 然 后 备份 
节点 在 复制 “创建 索引 ?操作 时 也 会 创建 索引 。 这 是 最 简单 的 创建 索引 的 
方式 ， 但 是 创建 索 引 是 一 个 需要 消耗 大 量 资 源 的 操作 ， 可 能 会 导致 成 员 
不 可 用 。 如 果 所 有 备份 节点 都 在 同一 时 间 开 始 创建 索引 ， 那 么 几乎 所 有 
成 员 都 会 不 可 用 ， 一 直到 索引 创建 完成 。 


因此 ， 可 能 你 会 布 望 每 次 只 在 一 个 成 员 上 创建 案 引 ， 以 降低 对 应 用 程序 
的 影响 。 如 果 要 这 么 做 ， 有 下 面 几 个 步骤 。 





. 关闭 一 个 备份 节点 服务 器 。 

. 将 这 个 服务 器 以 单机 模式 启动 。 

. 在 单机 模式 下 创建 索引 。 

. 索引 创建 完成 之 后 ， 将 服务 器 作为 副本 集成 员 重 新 启动 。 
. 对 副本 集中 的 每 个 备份 节点 重复 第 (1) 步 ~ 第 (4) 步 。 


现在 副本 集 的 每 个 成 员 《〈 除 了 主 节 点 ) 都 已 经 成 功 创建 了 索引 。 现 在 你 
本 
ee 











JU 太 DO 广 请 


1. 在 主 节 点 上 创建 索引 。 如 果 系 统 会 有 一 段 负载 比较 小 的 “空闲 期 ”， 
那 会 是 非常 好 的 创建 索引 的 时 机 。 也 可 以 修改 读 取 首 选项 ， 在 主 节 
点 创建 索引 期 间 ， 将 读 操 作 发 送 到 备份 节点 上 。 


主 节点 创建 索引 之 后 ， 备 份 节点 仍然 会 复制 这 个 操作 ， 但 是 由 于 备 
份 节 点 中 己 经 有 了 同样 的 索引 ， 实 际 上 不 会 再 次 创建 案 引 。 


2. 让 主 节 点 退化 为 备份 闻 上 把， 对 这 个 服务 占 执 行 上 面 的 4 步 。 这 时 就 
会 发 生 故 障 转移 ， 在 主 节 点 退化 为 备份 节点 创建 索引 期 间 ， 会 有 新 
的 节点 被 选举 为 主 节 点 ， 保 证 系统 正常 运转 。 索 引 创建 完成 之 后 ， 
可 以 重新 将 服务 器 添加 到 副本 集 。 


注意 ， 可 以 使 用 这 种 技术 为 某 个 备份 节点 创建 与 其 他 成 员 不 同 的 索引 。 
这 种 方式 在 做 离线 数据 处 理 时 会 非常 有 有 用， 但是， 如 果 某 个 备份 节点 的 
和 
设 为 0。 


如 末 要 创建 唯一 索引 ， 需 要 先 确 保 主 市 点 中 没有 被 插入 重复 的 数据 ， 或 
者 应 该 首先 为 主 节 点 创建 唯一 索引 。 否 则 ， 可 能 会 有 重复 数据 插入 主 节 
扩 ， 这 会 导致 备 份 节 扣 复 制 时 出 错 ， 如 果 遇 到 这 样 的 错误 ， 备 份 节 点 会 
将 自己 关闭 。 你 不 得 不 以 单机 模式 局 动 这 台 服 务 融 ， 删 除 唯 一 索引 ， 然 
后 重新 将 其 加 入 副本 集 。 


12.4.9 在 预算 有 限 的 情况 下 进行 复制 


如 果 预 算 有 限 ， 不 能 使 用 多 台 局 性 能 服务 器 ， 可 以 考虑 将 备份 节点 只 用 
于 灾难 恢复 ， 这 样 的 备份 节点 不 需要 太 大 的 RAM 和 太 好 的 CPU， 也 不 
需要 太 高 的 磁盘 IO。 这 样 ， 始 终 将 高 性 能 服务 怖 作为 主 节 点 ， 比 较 便宜 
的 服务 器 只 用 于 备份 ， 不 处 理 任 何 客户 端 请 求 〈 将 客户 端 配置 为 将 全 部 
读 请 求 友 送 到 主 市 点 ) 。 对 于 这 样 的 备份 节点 ， 应 该 设置 这 些 选 项 。 



































e "priority" : 0 


优先 级 为 0 的 备份 节点 永远 不 会 成 为 主 贡 点。 


e "hidden" : true 


将 备份 节点 设 为 隐藏 ， 客 户 端 就 无 法 将 读 请 求 发 送 给 它 了 。 





e "buildIindexes" : false 
这 个 选项 是 可 选 的 ， 如 果 在 备份 节点 上 创建 索引 的 话 ， 会 极 大 地 降 
低 备份 节 点 的 性 能 。 如 果 不 在 备份 节点 上 创建 索引 ， 那 么 从 备份 节 
点 中 恢复 数据 之 后 ， 需 要 重新 创建 索引 。 








"votes" :; 0 

在 只 有 两 台 服务 器 的 情况 下 ， 如 果 将 备份 节点 的 投票 数 设 为 0， 那 
么 当 备份 节点 挂 挥 之 后 ， 主 节点 仍然 会 一 直 是 主 节点 ， 不 会 因为 达 
不 到 “大 多 数 ” 的 要 求 而 退位 。 如 果 还 有 第 三 台 服 务 器 《即使 它 是 你 
的 应 用 服务 器 ) ， 那 么 应 该 在 第 三 台 服 务 器 上 运行 一 个 仲裁 者 成 
员 ， 而 不 是 将 第 三 台 服 务 器 的 投票 数量 设 为 0。 


在 没有 足够 的 预算 购买 多 台 高 性 能 服务 器 的 情况 下 ， 可 以 用 这 样 的 备份 
节点 来 保证 系统 和 数据 安全 。 
12.4.10 ” 主 节 点 如 何 跟踪 延迟 


作为 其 他 成 员 的 同步 源 的 成 员 会 维护 一 个 名 为 local.slaves 的 集合 ， 这 个 

集合 中 保存 着 所 有 正 从 当前 成 员 进 行 数据 同步 的 成 员 ， 以 及 每 个 成 员 的 
数据 新 旧 程 度 。 如 果 使 用 w 参 数 执行 查询 ，MongoDB 会 根据 这 些 信息 确 

定 是 否 有 足够 多 、 足 够 新 的 备份 节点 可 以 用 来 处 理 碍 询 。 


local.slaves 集 合 实际 上 是 内 存 中 数据 结构 的 “回声 ”， 所 以 其 中 的 数据 可 
能 会 有 几 秒 钟 的 延迟 : 


> db.slaves.find( 








{ "_id" : 0bjectId("4c1287178e00e93d1858567c")， "host" :; "10.4.1.100", 
"ns" :; "local.oplog.rs", "syncedTo" : { "t" : 1276282710000, "i" ;1}} 
{ "_id" : ObjectId("4c128730e6e5c3096f40eQde"), "host™" :; "10.4.1.101", 
"ns" : "Jocal.oplog.rs", "syncedTo" : { "t" : 1276282710000, "i" :; 1 }} 





每 个 服务 器 的 "_id" 字 上段 非 常 重 要 : 它 是 所 有 正在 从 当前 成 员 进 行 数据 
同步 的 服务 器 的 标识 人 符 。 连 接 到 一 个 成 员 ， 然 后 查询 local.me 和 集合 就 可 
以 知道 一 个 成 员 的 标识 符 : 


> db.me.findone() 
{ "_id" : ObjectId("50e6edb517c789e46695212f"), "host" : "server-1" } 


非常 偶然 的 情况 下 ， 由 于 网 络 故 障 ， 可 能 会 发 现 有 多 全 服务 器 拥有 相同 


的 标识 符 。 在 这 种 情况 下 ， 只 能 知道 其 中 一 台 服 务 器 相对 于 主 贡 点 的 新 
上 日 程度 。 所 以 ， 这 可 能 会 导致 应 用 程序 故障 《如 果 应 用 程序 需要 等 待 特 
定数 量 的 服务 器 完成 写 操 作 ) 和 分 放 问 题 〈 数 据 迁 移 被 复制 到 “大 多 
数 ” 备 份 节点 之 前 ， 无 法 继续 做 数据 迁移 ) 。 如 果 多 台 服 务 器 拥有 相同 
的 "id"， 可 以 依次 登录 到 每 台 服 务 器 ， 删 除 local.me 集 合 ， 然 后 重新 局 
动 nongod。 局 动 时 ，mongod 会 使 用 新 的 "_id" 重 新 生成 local.me 集 合 。 


如 果 服 务 器 的 地 址 发 生 了 改变 《假定 "id" 没 有 变 ， 但 是 主机 名 变 
了 〉， 可 能 会 在 本 地 数据 库 的 日 志 中 看 到 键 重复 异常 〈duplicate key 
exception) 。 遇 到 这 种 情况 时 ， 删 除 local.slaves 集 合 即 可 《这 比 之 前 的 
例子 简单 ， 因 为 只 需要 清除 旧 数 据 即 可 ， 不 需要 处 理 数 据 冲 突 ) 。 


mongod 不 会 清理 local.slaves 集 合 ， 所 以 ， 它 可 能 会 列 出 某 个 几 个 月 之 前 
就 不 再 把 该 成 员 作为 同步 源 的 服务 器 (或 者 是 已 经 不 在 副本 集 内 的 成 
员 ) 。 由 于 MongoDB 只 是 把 这 个 集合 用 于 报告 复 本 集 状 态 ， 所 以 这 个 
集合 中 的 过 时 数据 并 不 会 有 什么 影响 。 如 果 你 觉得 这 个 集合 中 的 旧 数 据 
会 造成 困惑 或 者 是 过 于 混乱 ， 可 以 将 整个 集合 删除 。 几 秒 钟 之 后 ， 如 果 
有 新 的 服务 器 将 当前 成 员 作为 复制 源 的 话 ， 这 个 集合 就 会 重新 生成 。 


如 果 备 份 节点 之 间 形 成 了 复制 链 ， 你 可 能 会 注意 到 某 个 特定 的 服务 器 在 
主 节 点 的 local.slaves 集 合 中 有 多 个 文档 。 这 是 因为 ， 每 个 备份 节点 都 会 
将 复制 请 求 转发 给 它 的 复制 源 ， 这 样 主 节点 就 能 够 知道 每 个 备份 节点 的 
同步 源 。 这 称 为 “ 影 同步 ”(ghost syncs) ， 因 为 这 些 请 求 并 不 会 要 求 进 





























行 数据 同步 ， 只 是 把 每 个 备份 硬 后 的 同步 源 报告 给 主 市 反 。 
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ocal 数 据 库 只 用 于 维护 复制 相关 信息 ， 它 并 不 会 被 复 
制 。 因 此 ， 如 果 希 望 某 些 数据 只 存在 于 特定 的 机 器 上 ， 可 以 将 这 些 
数据 保存 在 local 数 据 库 的 集合 中 。 


12.5 主 从 模式 
MongoDB 最 初 文 持 一 种 比较 传统 的 主 从 模式 (master-slave〉， 在 这 种 


模式 下 ，MongoDB 不 会 做 目 动 故障 转移 ， 而 且 需 要 明确 声明 主 节 点 和 
从 节点 。 有 两 种 情形 应 该 使 用 主 从 模式 而 不 是 副本 集 : 需要 多 于 11 个 备 








份 节点 ， 或 者 是 需要 复制 单个 数据 库 。 除 非 迫 不 得 己 ， 否 则 都 应 该 使 用 
副本 集 。 副 本 集 更 易 维护 ， 而 且 功 能 齐全 。 主 从 模式 以 后 会 被 废弃 ， 当 
副本 集 能 够 文 持 无 限 数据 的 成 员 时 ， 主 从 模式 很 可 能 会 被 立即 废弃 。 
但 是 ， 有 时 可 能 确实 需要 11 台 以 上 的 备份 节点 〈 从 节点 ) ， 或 者 是 需要 
复制 单个 数据 库 。 这 些 情况 下 ， 应 该 使 用 主 从 模式 。 

如 果 要 将 服务 器 设 为 主 庆 把 ， 可 以 使 用 --master 选 项 局 动 服务 器 。 对 于 
从 节点 ， 有 两 个 可 用 的 选项 : --slave 和 --source master。 --source 用 
于 指定 同步 源 的 主机 名 和 端口 号 。 注 意 ， 不 要 使 用 --replset 选 项 ， 因 
为 现在 是 要 设置 主 从 模式 ， 而 不 是 副本 集 。 


假如 有 两 台 服 务 器 ，server-06 和 server-1， 可 以 这 么 做 : 


$ # server-0 
$ mongod --master 








$ # server-1 
$ mongod --slave --source Server-0:27017 





这 样 ， 主 从 模式 就 设置 成 功 了 了 ， 不 需要 其 他 的 设置 。 在 主 节 点 执行 的 写 
操作 ， 会 被 复制 到 从 节点 上 。 


主 从 模式 也 可 以 用 于 复制 单个 数据 库 。 可 以 使 用 - -only 选 项 选择 需要 进 
行 复制 的 数据 库 。 


$ mongod --slave --source server-1:27017 --only super-important-db 


驱动 程序 不 会 目 动 将 读 请 求 及 送 给 从 市 点 。 如 末 要 从 从 市 点 读 取 数据 ， 
需要 显 式 地 创建 一 个 连接 到 从 节点 的 数据 库 连 接 。 
12.5.1 从 主 从 模式 切换 到 副本 集 模式 


从 主 从 模式 切换 到 副本 集 模 式 ， 需 要 停机 一 段 时 间 ， 步 又 如 下 。 





1. 停止 系统 的 所 有 写 操 作 。 这 非常 重要 ， 因 为 在 主 从 模式 下 ， 从 而 后 
0 


[Be 


. 关闭 所 有 的 mongod 服 务 器 。 
3. 使 用 --replset 选 项 重启 主 节 点 ， 不 再 使 用 --master。 
A ST ee 


i 

5. 使 用 --replset 和 --fastsync 选 项 启动 从 市 点 。 通 常 ， 如 果 问 副本 集 
中 添加 一 个 没有 oplog 的 成 员 ， 这 个 成 员 会 立即 进入 完全 的 初始 化 
同步 过 程 。fastsync 选 项 用 于 告诉 新 成 员 不 会 担心 oplog 的 问题 ， 直 
接 从 主 节 点 最 新 的 操作 开始 同步 即 可 。 

. 使 用 rs.add() 将 之 前 的 从 节点 加 入 副本 集 。 

. 对 每 个 从 节点 ， 重 复 第 5 步 和 第 6 步 。 

. 当 所 有 从 节点 都 变 为 备份 节点 之 后 ， 就 可 以 开局 系统 的 写 功能 
.从 配置 文件 、 命 令 行 别 名 和 内 存 中 删除 fastsync 选 项 。 这 是 一 个 非 
常 危险 的 选项 ， 它 会 使 成 员 启 动 时 跳 过 一 些 需要 同步 的 操作 。 只 有 
在 从 主 从 模式 切换 到 副本 集 时 才 可 以 使 用 这 个 命令 。 现 在 已 经 切换 
完成 了 ， 不 再 需要 这 个 选项 了 。 


现在 ， 主 从 模式 已 经 被 切换 为 副本 集 了 。 
12.5.2 ”让 副本 集 模仿 主 从 模式 的 行为 


通常 你 会 希望 主 市 点 长 时 间 可 用 ， 因 此 ， 万 一 主 节点 不 可 用 ， 应 该 允许 
目 动 故障 转移 。 但 是 ， 对 于 茶 些 副本 集 ， 你 可 能 会 要 求 手动 选择 新 的 主 
节点 ， 不 允许 进行 目 动 故 障 转移 。 这 样 的话 ， 副 本 集 的 行为 就 跟 主 从 模 
式 一 样 了 (对 于 这 种 情况 ， 建 议 使 用 主 从 模式 ， 而 不 是 使 用 副本 集 )。 


为 了 实现 这 个 目的 ， 需 要 重新 配置 副本 集 ， 将 所 有 成 员 《〈 除 主 节 点 之 
外 ) 的 priority 和 votes 设 为 0。 这 样 一 来 ， 如 果 主 节点 挂 了 ， 不 会 有 任 
何 成 员 寻 求 被 选举 为 主 节 点 。 男 外 ， 如 果 所 有 备份 厄 点 都 挂 了 ， 主 节点 
也 仍然 会 一 直 保持 主 节 点 状态 ， 不 会 退位 《因为 它 是 整个 系统 中 唯一 一 
个 拥有 投票 权 的 成 员 ) 。 


下 面 的 配置 文件 会 创建 一 个 具有 5 个 成 员 的 副本 集 ， 其 中 server-0 会 始终 
作为 主 节 点 ， 其 他 4 个 成 员 会 始终 作为 备份 节点 : 

















(ON 














{ "_id" 和" "spock", 
"members" : [ 
{"_id" : 0, "host" : "server-0:27017"}, 
{"_id" 1, "host" : "server-1:27017", "priority" : 0, "votes" :; 0}, 
{"_id" : 2, "host" : "server-2:27017", "priority" : 0, "votes" : 0}, 
{"_id" 3, "host" : "server-3:27017", "priority" : 0, "votes" :; 0}, 


{"_id" : 4, "host" : "server-4:27017", "priority" : 0, "votes" : 0} 


如 果 主 节点 挂 了 ， 管 理 员 必须 手动 选 出 新 的 主 节点 。 
如 果 要 手动 将 茶 个 备份 节 氮 提升 为 主 节 点 ， 首 先 要 连接 到 这 个 备份 节 





点 ， 然 后 执行 强制 重新 配置 ， 将 它 的 priority 和 votes 修 改 为 1， 同 时 将 
先前 的 主 节 点 的 priority 和 votes 修 改 为 0。 


例如 ， 


如 果 server-0 挂 了 ， 可 以 连接 到 希望 提升 为 新 的 主 节 点 的 备份 节 


点 《比如 server-1) ， 然 后 以 下 面 的 方式 修改 配置 : 


VVVVVV 


现在 ， 


Fi 


var config = rs.config() 
config.members[1].priority = 1 
config.members[1].votes = 1 
config.members[0].priority = 0 
config.members[0].votes = 0 
rs,reconfig(config，{ 人 "force"”: true}) 


如 果 运 行 rs .config()， 束 可 以 看 到 新 的 副本 集 配 置信 息 了 : 


rs.config() 


"_id" "spock", 

"version" : 3 

"members" : [ 
{"_id" : 0, "host" : "server-0:27017", "priority" : 0, "votes" : 0}, 
{"_id" : 1, "host" : "server-1:27017"}, 
{"_id" : 2, "host" : "server-2:27017", "priority" : 0, "votes" : 0}, 
{"_id" : 3, "host" : "server-3:27017", "priority" : 0, "votes" : 0}, 
{"_id" 4, "host" : "server-4:27017", "priority" : 0, "votes" :; 0} 


如 果 新 的 主 节 点 又 挂 了 ， 可 以 重复 上 面 的 步 又 ， 手 工 将 某 个 备份 节点 提 
升 为 新 的 主 市 点。 


第 13 章 ”分 厂 


本 章 介 绍 如 果 扩 展 MongoDB: 


。 分 片 和 集群 组 件 ; 
。 如 何 配 置 分 片 ; 
。 分 片 与 应 用 程序 的 交互 。 


13.1 分 片 简介 


分 片 〈sharding) 是 指 将 数据 拆 分 ， 将 其 分 散 存 放 在 不 同 的 机 器 上 的 过 

程 。 有 时 也 用 分 区 〈partitioning) 来 表示 这 个 概念 。 将 数据 分 散 到 不 同 

处 理 
负载 。 


几乎 所 有 数据 库 软 件 都 能 进行 手动 分 片 (manual sharding) 。 应 用 需要 
维护 与 知 干 不 同 数据 库 服 务 器 的 连接 ， 每 个 连接 还 是 完全 独立 的 。 应 用 
程序 管理 不 同 服务 器 上 不 同 数据 的 存储 ， 还 管理 在 合适 的 数据 库 上 得 询 
数据 的 工作 。 这 种 方法 可 以 很 好 地 工作 ， 但 是 非常 难以 维护 ， 比 如 同 集 
ee 调整 数据 分 布 和 负载 模式 也 不 
人 从 。 


MongoDB 文 持 目 动 分 片 〈autosharding) ， 可 以 使 数据 库 架 构 对 应 用 程 
序 不 可 见 ， 也 可 以 简化 系统 管理 。 对 应 用 程序 而 言 ， 好 像 始终 在 使 用 一 
个 单机 的 MongoDB 服 务 嚣 一样 。 另 一 方面 ，MongoDB 目 动 处 理 数据 在 
分 乒 上 的 分 布 ， 也 更 容易 添加 和 删除 分 片 。 


不 管 从 开发 角度 还 是 运营 角度 来 说 ， 分 片 都 是 最 困难 最 复杂 的 
MongoDB 配 置 方式 。 有 很 多 组 件 可 以 用 于 目 动 配置 、 监 控 和 数据 转 
移 。 在 尝试 部 署 或 使 用 分 片 集群 之 前 ， 你 需要 先 熟 悉 前 面 章节 中 讲 过 的 
单机 服务 器 和 副本 集 。 

13.2 ”理解 集群 的 组 件 


MongoDB 的 分 片 机 制 允 许 你 创建 一 个 包含 许多 人 台 机 器 《分 片 ) 的 集 





群 ， 将 数据 子 集 分 散在 集群 中 ， 每 个 分 片 维护 独 一 个 数据 集合 的 子 集 。 
人 
炎 理 能 力 。 











避 , 许多 人 可 能 会 混淆 复制 和 分 片 的 概念 。 记 住 ， 复 制 是 让 
多 台 服务 器 都 拥有 同样 的 数据 副本 ， 每 一 台 服务 器 都 是 其 他 服务 器 
的 镜像 ， 而 每 一 个 分 片 都 有 其 他 分 片 拥有 不 同 的 数据 子 集 。 


分 片 的 目标 之 一 是 创建 一 个 拥有 5 台 、10 台 甚至 1000 台 机 器 的 集群 ， 整 
个 集群 对 应 用 程序 来 说 就 像 是 一 台 单 机 服务 器 。 为 了 对 应 用 程序 隐藏 数 
据 库 架构 的 细节 ， 在 分 片 之 前 要 先 执 行 mongos 进 行 一 次 路 由 过 程 。 这 个 
路 由 服务 器 维护 着 一 个 “内 容 列表 ”， 指 明了 每 个 分 片 包含 什么 数据 内 

容 。 应 用 程序 只 需要 连接 到 路 由 服务 器 ， 就 可 以 像 使 用 单机 服务 器 一 样 
进行 正常 的 请 求 了 ， 如 图 13-1 所 示 。 路 由 服务 器 知道 哪些 数据 位 于 哪个 
分 片 ， 可 以 将 请 求 转发 给 相应 的 分 片 。 每 个 分 片 对 请 求 的 响应 都 会 发 送 
给 路 由 服务 器 ， 路 由 服务 器 将 所 有 响应 合并 在 一 起 ， 返 回 给 应 用 程序 。 
0 

[图 13-2 所 示 。 























图 13-1 使 用 分 片 的 连接 





图 13-2 不 使 用 分 片 的 连接 
13.3 ”快速 建立 一 个 简单 的 集群 


如 前 面 介 绍 复制 时 一 样 ， 本 节 会 在 单 台 服 务 器 上 快速 建立 一 个 集群 。 首 
先 ， 使 用 --nodb 选 项 启动 mongo shell: 


$ mongo --nodb 


使 用 shardingTest 类 创建 集群 : 


> cluster = new ShardingTest({"shards" : 3, "chunksize" :; 1}) 


第 16 章 会 详细 介绍 chunksize 选 项 ， 目 前 来 说 可 以 简单 将 其 设置 为 1。 
这 


个 命令 就 会 创建 一 个 包含 3 个 分 片 mongod 进 程 ) 的 集群 ， 分 别 
运行 在 30000、30001、30002 端 口 。 默 认 情 况 下 ，shardingTest 会 在 





30999 端 口 局 动 mongos。 接 下 来 承 连 接 到 这 个 mongos 开 始 使 用 集群 。 
集群 会 将 日 志 输 出 到 当前 shell 中 ， 所 以 再 打开 一 个 shell 用 来 连接 到 集群 
的 mongos: 


> db = (new Mongo("localhost:30999")).getDB("test") 


现在 的 情况 如 图 13-1 所 示 : 客户 端 (shell) 连接 到 了 一 个 mongos。 现 在 
就 可 以 将 请 求 发 送 给 mongos 了 ， 它 会 自动 将 请 求 路 由 到 合适 的 分 片 。 客 
户 端 不 需要 知道 分 片 的 任何 信息 ， 比 如 分 片 数量 和 分 片 地 址 。 只 要 有 分 
0 就 可 以 同 mongos 发 送 请 求 ， 它 会 自动 将 请 求 转发 到 合适 的 分 片 














> for (var i=0; i<100000; i++) { 
i db.users.insert({"username" : "User"+i, "created at" : new Date()}); 


> db.users.count() 
100000 


可 以 看 到 ， 与 mongos 进 行 交 互 与 使 用 单机 服务 器 完全 一 样 ， 如 图 13-2 所 
Rs 


运行 sh ,status() 可 以 看 到 集群 的 状态 : 分 片 摘要 信息 、 数 据 库 摘要 信 


恩 、 集 合 摘 要 信息 : 


> sh.status() 
-- Sharding Status --- 


sharding version: { "_id" : 1, "version" ; 3 } 
shards: 
{ "_id" : "shard0000"， "host" : "localhost:30000" } 
{ "_id" : "shard0001", "host" : "localhost:30001" } 
{ "_id" : "shard0002", "host" : "localhost:30002" } 
databases : 
{ "_id" : "admin", "partitioned" : false，"primary”: "config" } 
{ "_id" : "test", "partitioned" : false, "primary" : "shard0001" } 


sh 命令 与 rs 命令 很 像 ， 除 了 它 是 用 于 分 片 的 : rs 是 一 个 全 局 变量 ， 其 中 
定义 了 许多 分 片 操作 的 辅助 函数 。 可 以 运行 sh .help( ) 查 看 可 以 使 用 的 
辅助 函数 。 如 sh.stats() 的 输出 所 示 ， 当 前 拥有 3 个 分 片 ，2 个 数据 库 
(其 中 admin 数 据 库 是 目 动 创建 的 )。 


与 上 面 sh,.stats() 的 输出 信息 不 同 ， test 数 据 库 可 能 有 一 个 不 同 的 主 分 

片 〈primary shard) 。 主 分 片 是 为 每 个 数据 库 随机 选择 的 ， 所 有 数据 都 
会 位 于 主 分 片上 。MongoDB 现 在 还 不 能 自动 将 数据 分 发 到 不 同 的 分 三 

上 ， 因 为 它 不 知道 你 希望 如 何 分 发 数据 。 必 须要 明确 指定 ， 对 于 每 一 个 
集合 ， 应 该 如 何 分 发 数据 。 

















太 , 主 分 片 与 副本 集中 的 主 节点 不 同 。 主 分 片 指 的 是 组 成 分 
片 的 整个 副本 集 。 而 副本 集中 的 主 节点 是 指 副 本 集中 能 够 处 理 写 请 
求 的 单 台 服务 器 。 


要 对 一 个 集合 分 片 ， 首先 要 对 这 个 集合 的 数据 库 局 用 分 片 ， 执 行 如 下 命 
< 


> sh.enableSharding("test") 





现在 就 可 以 对 test 数 据 库 内 的 集合 进行 分 片 了 。 


对 集合 分 片 时 ， 要 选择 一 个 片 键 (shard key) 。 片 键 是 集合 的 一 个 键 ， 
MongoDB 根 据 这 个 键 拆 分 数据 。 例 如 ， 如 果 选 择 基 于 "username" 进 行 分 
片 ，MongoDB 会 根据 不 同 的 用 户 名 进行 分 片 : "al-steak- 

sauce" 到 "defcon" 位 于 第 一 片 ，"defcon1" 到 "howie1998" 位 于 第 二 片 ， 
以 此 类 推 。 选 择 片 键 可 以 认为 是 选择 集合 中 数据 的 顺序 。 它 与 索引 是 个 
相似 的 概念 : 随 着 集合 的 不 断 增 长 ， 厂 键 束 会 成 为 集合 上 最 重要 的 索 

引 。 只 有 被 索引 过 的 键 才能 够 作为 片 键 。 


在 局 用 分 片 之 前 ， 移 在 希望 作为 片 键 的 键 上 创建 索引 : 


> db.users.ensureIndex({"username" :; 1}) 














现在 就 可 以 依据 "username" 对 集合 分 片 了 : 


> sh.shardCcollection("test.users", {"username" : 1}) 





尽管 我 们 这 里 选择 片 键 时 并 没有 作 太 多 考虑 ， 但 是 在 实际 中 应 该 仔细 其 
酌 。 第 15 章 会 详细 介绍 如 何 选择 片 键 。 


几 分 钟 之 后 再 次 运行 sh ,status()， 可 以 看 到 ， 


多 : 


--- Sharding Status --- 


"primary” : 


; "User24083" } 


"user31126" 


"user38170" 


"User45213" 


"USer52257" 


"USer59300" 


"user66344" 


"USer73388" 


"USer80430" 


"usSer87475" 


"USser94518" 


sharding version: { "_id" : 1, "version" ; 3 } 
shards: 
{ "_id" : "shard0000"， "host" : "localhost:30000" } 
{ " _id" : "shard0001", "host" : "localhost:30001" } 
{ "_id" : "shard0002", "host" : "localhost:30002" } 
databases: 
{ "_id" : "admin", "partitioned" : false, 
{ "_id" : "test", "partitioned" : true, "primary" : 
test.users chunks: 
shard0001 4 
shard0002 4 
shard0000 5 
{ "username" : { $minkey : 1 } } -->> { "username" 
on : Shard0001 
{ "UsSername" : "user1704" } -->> { "USername" 
on : Shard0002 
{ "username" : "USer24083" } -->> { "UsSername" : 
on : Shard0001 
{ "username" : "UsSer31126" } -->> { "UsSername" : 
on : Shard0002 
{ "Username"”: "USer38170" } -->> { "UsSername" : 
on : Shard0001 
{ "Username" : "UsSer45213" } -->> { "UsSername" : 
on : Shard0002 
{ "Username" : "USer52257" } -->> { "UsSername" : 
on : Shard0001 
{ "Username" : "UsSer59300" } -->> { "UsSername" : 
on : Shard0002 
{ "Username"”: "UsSer66344" } -->> { "username"” : 
on : Shard0000 
{ "Username" : "USer73388" } -->> { "UsSername" : 
on : Shard0000 
{ "Username" : "USer80430" } -->> { "UsSername" : 
on : Shard0000 
{ "Username" : "USer87475" } -->> { "UsSername" : 
on : Shard0000 
{ "Username" : "USer94518" } -->> { "UsSername" : 


on : Shard0000 


{ $maxKey : 


这 次 的 输出 信息 比较 


"config" } 
"shard0000" } 


: "User1704" } 


0 了 多 个 数据 块 ， 每 一 个 数据 块 都 是 集合 的 一 个 数据 子 集 。 
安 上 照片 键 的 范围 排列 的 ({"username" 


oe : 
出 信息 中 的 "on" 
同 罗 请 上 Ea 


shard 部 分 


minValue} 
maxValue} 指 出 了 每 个 数据 块 的 数据 范围 ) 。 
， 可 以 发 现 集 合 数据 比较 均匀 地 分 布 在 不 


- ->> 


通过 查看 输 


将 集合 拆 分 为 多 个 数据 块 的 过 程 如 图 13-3 到 图 13-5 所 示 。 在 分 片 之 前 ， 
集合 实际 上 是 一 个 单一 的 数据 块 。 分 片 依据 片 键 将 集合 拆 分 为 多 个 数据 
ee 
5 有 HT 不 。 





图 13-3 ”在 分 片 之 前 ， 可 以 认为 集合 是 一 个 单一 的 数据 块 ， 从 厂 键 的 
最 小 值 一 直到 片 键 的 最 大 值 都 位 于 这 个 块 


¢ | 
JmInAey 





图 13-4 分 片 依据 片 键 范 围 将 集合 拆 分 为 多 个 数据 块 


分 片 0000 
User66344 | | user73388 | | user80430 | | user87475 | | user34518 
user73388 | | user80430 | | user87475 | | user94518 | | $maxKey 


分 斤 0001 


$minKey | | user24083 | | user38170 | | user52257 
USer1704 | | user31126 | | user45213 | | user59300 


分 片 0002 
user1704 | |user31126 | | user45213 | | user59300 
user24083 | | user38170 | | user52257 | | user66344 


图 13-5 ”数据 块 均衡 地 分 布 在 不 同 分 片上 


注意 ， 数 据 块 列表 开始 的 键 值 和 结束 的 键 值 : Sminkkey 和 $maxkey。 可 以 
将 sninkey 认 为 是 < 负 无 穷 ”， 它 比 MongoDB 中 的 任何 值 都 要 小 。 类 似 
地 ， 可 以 将 $maxKey 认 为 是 “ 正 无 穷 "， 它 比 MongoDB 中 的 任何 值 都 要 
大 。 因此， 经 常会 见 到 这 两 个 < 应 值 > 出 现在 数据 块 范围 中 。 片 键 值 的 范 
围 始 终 位 于 $minKey 和 $maxKey 之 间 。 这 些 值 实际 上 是 BSON 类 型 ， 只 是 
用 于 内 部 使 用 ， 不 应 该 被 用 在 应 用 程序 中 。 如 果 希 望 在 shell 中 使 用 的 
话 ， 可 以 用 Minkey 和 MaxKey 和 常量 代 蔡 。 


现在 数据 已 经 分 布 在 多 个 分 片上 了 ， 接 下 来 做 一 些 查 询 操作 。 首 先 ， 做 
一 个 基于 指定 的 用 户 名 的 查询 : 


> db.users.find({username: "user12345"}) 














"_id" : ObjectId("50b0451951d30ac5782499e6")， 


"Username" : "user12345", 
"created at" : ISODate("2012-11-24T03:55:05.6362Z") 





可 以 看 到 ， 查 询 可 以 正常 工作 。 现 在 运行 explain() 来 看 看 MongoDB 到 
底 是 如 何 处 理 这 次 查询 的 : 


> db.users.find({username: "user12345"}}).explain() 


"clusteredType" : "ParallelSort", 
"shards" : { 
"localhost:30001" :; [ 
"cursor" : "BtreeCursor username_1", 
"nscanned" : 1, 
"nscannedobjects" : 1, 
Nn" : 1, 
"millis" : 0, 


"nYields" : 0, 
"nChunkSkips" : 0, 
"isMultikey" : false, 
"indexOonly" : false, 
"indexBounds" : { 
"username" :; [ 


"user12345", 
"UsSer12345" 


nnn 1 

"nCchunkSkips" : 0, 
"nYields" : 0, 
"nscanned" : 1, 
"nscannedOobjects" :; 1, 
"millisTotal" : 0, 
"millisAvg" : 0, 
"numQueries" :; 1, 
"numShards" :; 1 


输出 信息 包含 两 个 部 分 : 一 个 看 起 来 比较 普通 的 explain() 输 出 供 套 在 
另 一 个 explain() 输 出 中 。 外 层 的 explain() 输 出 来 自 nongos: 描述 了 为 
了 处 理 这 个 查询 ，mongos 所 做 的 工作 。 内 层 的 explain() 输 出 来 自 查 询 
所 使 用 的 分 片 ， 在 本 例 中 是 1ocalhost :30001。 


由 于 "username" 是 片 键 ， 所 以 mongos 能 够 直接 将 查询 发 送 到 正确 的 分 片 
上 。 作 为 对 比 ， 来 看 一 下 碍 询 所 有 效 据 的 过 程 : 
> db.users.find().explain() 
"clusteredType" : "ParallelSort", 


"shards" : 
"localhost:30000" :; [ 


"cursor" : "BasicCursor", 
"nscanned" : 37393, 
"nscannedobjects" :; 37393, 
"Nn" :; 37393, 

"millis" ; 38, 

"nYields" : 0, 
"nChunkSkips" : 0， 
"isMultikey" : false, 
"indexOonly" : false, 


"indexBounds" : { 
} 
} 
]， 
"localhost:30001" :; [ 
{ 
"cursor" : "BasicCursor", 
"nscanned" : 31303, 
"nscannedobjects" :; 31303, 
"Nn" : 31303, 
"millis" : 37, 
"NnYields" : 0, 
"nChunkSkips" : 0, 
"isMultikey" : false, 
"indexOonly" : false, 
"indexBounds" : { 
} 
} 
]， 
"localhost:30002" :; [ 
{ 
"cursor" :; "BasicCursor", 
"nscanned" : 31304, 
"nscannedobjects" : 31304, 
"Nn" :; 31304, 
"millis" :; 36, 
"nYields" : 0, 
"nChunkSkips" : 0, 
"isMultikey" : false, 
"indexOonly" : false, 
"indexBounds" : { 
} 
} 


] 
}, 
"n" :; 100000, 
"nChunkSkips" : 0, 
"nYields" : 0, 
"nscanned" : 100000, 
"nscannedOobjects" : 100000, 
"millisTotal" : 111, 
"millisAvg" : 37, 
"numQueries" : 3, 
"numShards" :; 3 





可 以 看 到 ， 这 次 碍 询 不 得 不 访问 所 有 3 个 分 片 ， 碍 询 出 所 有 数据 。 通 季 
如 果 没 有 在 查询 中 使 用 片 键 ，mongos 就 不 得 不 将 查询 发 送 到 每 个 
刀 o 


包含 片 键 的 查询 能 够 直接 被 发 送 到 目标 分 片 或 者 是 集群 分 片 的 一 个 子 
集 ， 这 样 的 查询 叫做 定 问 查询 (targeted query) 。 有 些 查 询 必须 被 发 送 
到 所 有 分 片 ， 这 样 的 查询 叫做 分 散 - 聚 集 查 询 (scatter-gather query) : 
mongos 将 查询 分 攻 到 所有 分 片上 ， 然 后 将 各 个 分 上 的 在 询 结果 到 集 





完成 这 个 实验 之 后 ， 关 闭 数 据 集 。 切 换 回 最 初 的 shell， 按 几 次 Enter 键 以 
回 到 命令 行 。 然 后 运行 cluster .stop() 束 可 以 关闭 整个 集群 了 。 


> cluster.stop() 


如 琳 不 确定 茶 个 操作 的 作用 ， 可 以 使 用 shardingTest 快 速 创建 一 个 本 地 
集群 然后 做 一 些 尝 试 。 


第 14 半 ”配置 分 片 


上 一 章 中 ， 我 们 在 一 台 机 器 上 创建 了 一 个 “集群 "。 本 章 讲 述 如 何 创建 一 
个 更 实际 的 集群 ， 以 及 分 片 的 配置 : 


。 创 建 配置 服务 器 、 分 片 、mongos 进 程 。 

。 增加 集群 容量 。 

。 数据 的 存储 和 分 布 。 
14.1 何 时 分 厂 
决定 何 时 分 片 是 一 个 值得 权衡 的 问题 。 通 常 不 必 太 早 分 片 ， 因 为 分 片 不 
仪 会 增加 部 署 的 操作 复杂 上 度 ， 还 要 求 做 出 设计 决策 ， 而 该 决策 以 后 很 难 
再 改 。 男 外 最 好 也 不 要 在 系统 运行 太 久 之 后 再 分 片 ， 因 为 在 一 个 过 载 的 
系统 上 不 停机 进行 分 片 是 非常 困难 的 。 


通常 ， 分 片 用 来 : 








。 增 加 可 用 RAM; 

。 增加 可 用 磁盘 空间 ; 

。 减轻 单 台 服 务 器 的 负载 ; 

。 处 理 单个 mongod 无 法 承受 的 否 吐 量 。 


因此 ， 良 好 的 监控 对 于 决定 应 何 时 分 片 是 十 分 重要 的 ， 必 须 认真 对 待 其 

中 每 一 项 。 由 于 人 们 往往 过 于 关注 改进 其 中 一 个 指标 ， 所 以 应 弄 明白 到 

底 夺 项 指标 对 自己 的 部 轩 好 为 重要 ， 并 提前 做 好 何 时 分 片 以 及 如 何 分 
9 计划 。 


随 着 不 断 增 加 分 片 数量 ， 系 统 性 能 大 致 会 呈 线 性 增长 。 但 是 ， 如 果 从 一 
个 未 分 片 的 系统 转换 为 只 有 几 个 分 片 的 系统 ， 性 能 通常 会 有 所 下 降 。 由 
于 迁移 数据 、 维 护 元 数据 、 路 由 等 开销 ， 少 量 分 片 的 系统 与 未 分 片 的 系 
统 相 比 ， 通 常 延迟 更 大 ， 知 吐 量 甚至 可 能 会 更 小 。 因 此 ， 至 少 应 该 创建 
3 个 或 以 上 的 分 片 。 


14.2 ”启动 服务 器 























创建 集群 的 第 一 步 是 局 动 所 有 所 需 进 程 。 如 上 章 所 述 ， 需 建立 mongos 和 
人 个 组 件 一 本 置 服务 尖 也 非 党 重要， 配置 服务 器 是 普通 的 

mongod 服 务 器 ， 保 存 痢 集群 的 配置 信息 : 集群 中 有 哪些 分 片 、 分 乒 的 

古 哪些 集合 ， 以 及 数据 块 的 分 布 。 


14.2.1 配置 服务 器 


配置 服务 器 相当 于 集群 的 大 脑 ， 保 存 着 集群 和 分 片 的 元 数据 ， 即 各 分 厂 
包含 哪些 数据 的 信息 。 因 此 ， 应 该 首先 建立 配置 服务 器 ， 鉴 于 它 所 包含 
数据 的 极端 重要 性 ， 必 须 局 用 其 日 志 功 能 ， 并 确保 其 数据 保存 在 非 易 失 
性 驱动 器 上 。 每 个 配置 服务 器 都 应 位 于 单独 的 物理 机 器 上 ， 最 好 是 分 布 
在 不 同 地 理 位 置 的 机 器 上 。 


因 mongos 需 从 配置 服务 器 获取 配置 信息 ， 因 此 配置 服务 器 应 先 于 任何 
mongos 进 程 启动 。 配 置 服务 器 是 独立 的 mongod 进 程 ， 所 以 可 以 像 启 
动 “ 普 通 的 "mongod 进 程 一 样 启动 配置 服务 器 : 


$ # server-config-1 

$ mongod --configsvr --dbpath /var/lib/mongodb -f /var/lib/config/mongod.conf 
$ 

$ # server-config-2 

$ mongod --configsvr --dbpath /var/lib/mongodb -f /var/lib/config/mongod.conf 
$ 


$ # server-config-3 
$ mongod --configsvr --dbpath /var/lib/mongodb -f /var/lib/config/mongod.conf 


局 动 配置 服务 器 时 ， 不 要 使 用 - -replset 选 项 : 配置 服务 器 不 是 副本 集 
成 员 。mongos 会 同 所 有 3 台 配 置 服务 器 发 送 写 请 求 ， 执 行 一 个 两 步 提交 
类 型 的 操作 ， 以 确保 3 台 服 务 器 拥有 相同 的 数据 ， 所 以 这 3 台 配 置 服务 右 
| (在 副本 集中 ， 只 有 主 节点 可 以 处 理 客户 并 的 写 请 
求 ) 。 





> 一 个 常见 的 疑问 是 ， 为 什么 要 用 3 台 配 置 服务 器 ? 因为 
我 们 需要 考虑 不 时 之 需 。 但 是 ， 也 不 需要 过 多 的 配置 服务 器 ， 因 为 
配置 服务 器 上 的 确认 动作 是 比较 耗 时 的 。 另 外 ， 如 果 有 服务 器 容 机 
了 ， 集 群 元 数据 就 会 变 成 只 读 的 。 因 此 ，3 合 惑 足够 了 了， 既 可 以 应 





对 不 时 之 需 ， 叉 无 需 承 受 服 务 占 过 多 种 来 的 缺 把 。 这 个 数字 未 来 可 
能 会 发 生变 化 。 


- -configsvr 选 项 指定 mongod 为 新 的 配置 服务 器 。 该 选项 并 非 必 选 项 ， 
因为 它 所 做 的 不 过 是 将 mongod 的 默认 监听 端口 改 为 27019， 并 把 默认 的 
数据 目录 改 为 /data/configdb 而 已 〈 可 使 用 --port 和 --dbpath 选 项 修改 这 
两 项 配置 ) 。 


但 建议 使 用 - -configsvr 选 项 ， 因 为 它 比 较 直 和 白地 说 明了 这 些 配 置 服务 
器 的 用 途 。 当 然 ， 如 果 不 用 它 启动 配置 服务 器 也 没 问 题 。 


配置 服务 器 并 不 需要 太 多 的 空间 和 资源 。 配 置 服务 器 的 1 KB 空间 约 等 于 
200 ”MB 真实 数据 ， 它 保存 的 只 是 数据 的 分 布 表 。 由 于 配置 服务 器 并 不 
需要 太 多 的 资源 ， 因 此 可 将 其 部 署 在 运行 着 其 他 程序 的 机 器 上 ， 如 应 用 
服务 器 、 分 片 的 mongod 服 务 器 ， 或 mongos 进 程 的 服务 器 上 。 


如 果 所 有 的 配置 服务 器 都 不 可 用 ， 融 要 对 所 有 分 片 做 数据 分 析 ， 以 便 知 
道 每 个 分 片 保存 的 是 什么 样 的 数据 。 这 是 可 行 的 ， 但 速度 较 慢 ， 且 令 人 
厌烦。 比较 好 的 方式 是 经 常 对 配置 服务 占 做 数据 备份 。 应 常 在 执行 集群 
维护 操作 之 前 备份 配置 服务 器 的 数据 。 


14.2.2 ”mongos 进 程 
三 个 配置 服务 器 均 处 于 运行 状态 后 ， 局 动 一 个 mongos 进 程 供应 用 程序 连 


接 。mongos 进 程 需 知道 配置 服务 器 的 地 址 ， 所 以 必须 使 用 - -configdb 选 
项 启动 mongos: 




















$ mongos --configdb config-1:27019,config-2:27019,config-3:27019 \\ 
> -f /var/lib/mongos.conf 


默认 情况 下 ，mongos 运 行 在 27017 端 口 。 注 意 ， 并 不 需要 指定 数据 目录 

Cmongos 自 号 并 不 保存 数据 ， 它 会 在 局 动 时 从 配置 服务 器 加 载 集 群 数 
据 ) 。 确 保 正 确 设置 了 1ogpath， 以 便 将 mongos 日 志保 存 到 安全 的 地 
pa 








可 启动 任意 数量 的 mongos 进 程 。 通 各 的 设置 是 每 个 应 用 程序 服务 器 使 用 
一 个 mongos 进 程 〈 与 应 用 服务 器 运行 在 同一 台 机 器 上 ) 。 


每 个 nongos 进 程 必须 按照 列表 顺序 ， 使 用 相同 的 配置 服务 器 列表 。 
14.2.3 ”将 副本 集 转 换 为 分 片 
终于 可 以 添加 分 片 了 。 有 两 种 可 能 性 : 已 经 有 了 一 个 副本 集 ， 或 是 从 零 


开始 建立 集群 。 下 例假 设 我 们 已 经 拥有 了 一 个 副本 集 。 如 果 是 从 零 开 始 
0 01 








如 已 经 有 一 个 使 用 中 的 副本 集 ， 该 副本 集会 成 为 第 一 个 分 片 。 为 了 将 副 
本 集 转换 为 分 片 ， 需 告知 mongos 副 本 集 名 称 和 副本 集成 员 列 表 。 


例如 ， 如 果 在 server-1、server-2、server-3、server-4、server-5 上 有 一 个 
名 为 spock 的 副本 集 ， 可 连接 到 mongos 并 运行 : 
> sh.addSshard("spock/server-1:27017, server-2:27017, server-4:27017") 


"added" : "spock/server-1:27017,server-2:27017,server-4:27017", 
"ok" : true 


} 





可 在 参数 中 指定 副本 集 的 所 有 成 员 ， 但 并 非 一 定 要 这 样 做 。mongos 能 够 
自动 检测 到 没有 包含 在 副本 集成 员 表 中 的 成 员 。 如 运行 sh.status()， 

可 发 现 MongoDB 已 经 找到 了 其 他 的 副本 集成 员 : "spock/server- 
1:27017, server-2:27017, server-4:27017, server-3:27017, server- 
5:27017"。 


副本 集 名 称 spock 被 用 作 分 片 名 称 。 如 之 后 希望 移 除 这 个 分 片 或 是 向 这 
个 分 片 迁移 数据 ， 可 使 用 spock 来 标识 这 个 分 片 。 这 比 使 用 特定 的 服务 
器 名 称 〈 如 server-1) 要 好 ， 因 为 副本 集成 员 和 状态 是 不 断 改 变 的 。 


将 副本 集 作为 分 片 添加 到 集群 后 ， 就 可 以 将 应 用 程序 设置 从 连接 到 副本 
集 改 为 连接 到 mongos。 添 加 分 片 后 ，mongos 会 将 副本 集 内 的 所 有 数据 
库 注册 为 分 片 的 数据 库 ， 因 此 所 有 查询 都 会 被 发 送 到 新 的 分 片上 。 与 客 
户 端 库 一 样 ，mongos 会 自动 处 理应 用 故障 ， 将 错误 返回 给 客户 端 。 


在 开发 环境 中 可 测试 一 下 让 分 片 的 主 节点 挂 挥 ， 以 确保 应 用 程序 能 够 下 
确 处 理 mongos 返 回 的 错误 。 【错误 应 与 直接 对 话 主 节 点 返回 的 错误 相 
本 


同 














添加 分 片 后 ， 必 须 将 客户 端 设 置 为 将 所 有 请 求 发 送 到 
mongos， 而 不 是 副本 集 。 如 果 客 户 端 仍然 把 请 求 直 接 发 送 给 副本 集 
(而 不 是 通过 mongos) 的 话 ， 分 片 是 无 法 正常 工作 的 。 添 加 分 片 
后 ， 应 立即 将 客户 端 配 置 为 把 请 求 发 送 给 mongos， 同 时 配置 防火 墙 
规则 ， 以 确保 客户 端 不 能 直接 将 请 求 发 送 给 分 片 。 


有 一 个 --shardsvr 选 项 ， 与 前 面 介 绍 过 的 - -configsvr 选 项 类 似 ， 它 也 没 
什么 实用 性 〈 只 是 将 默认 端口 改 为 27018) ， 但 建议 在 操作 中 选择 该 选 
项 。 


也 可 以 创建 单 mongod 服 务 器 的 分 片 〈 而 不 是 副本 集 分 片 ) ， 但 不 建议 

在 生产 中 使 用 (上 一 章 中 的 shardingTest 是 这 么 做 的 ) o 直接 

a ) 中 指定 单个 mongod 的 主机 名 和 端口 ， 就 可 以 将 其 添加 为 分 
7 了: 








> sh.addSshard("some-server:27017") 


单一 服务 器 分 片 默认 会 被 命名 为 shard0000、shard0001， 依 次 类 推 。 如 
打算 以 后 切换 为 副本 集 ， 应 先 创建 一 个 单 成 员 副 本 集 再 添加 为 分 片 ， 而 
不 是 直接 将 单一 服务 器 添加 为 分 片 。 将 单一 服务 器 分 片 转换 为 副本 集 需 
停机 操作 〈 详 见 16.3 节 ) 。 


14.2.4 增加 集群 容量 


可 通过 增加 分 片 来 增加 集群 容量 。 为 添加 一 个 新 的 、 空 的 分 片 ， 可 先 创 
建 一 个 副本 集 。 确 保 副 本 集 的 名 字 与 其 他 分 片 不 同 。 副 本 集 完 成 初始 化 
并 拥有 一 个 主 节点 后 ， 可 在 mongos 上 运行 addshard() 命 令 ， 将 副本 集 作 
为 分 片 添加 到 集群 中 ， 在 参数 中 指定 副本 集 的 名 称 和 主机 名 作为 种 子 。 


如 有 多 个 现存 的 副本 集 没 有 作为 分 片 ， 只 要 它们 没有 同名 的 数据 库 ， 束 
可 将 它们 作为 新 分 片 全 部 添加 到 集群 中 。 例 如 ， 如 有 一 个 blog 数 据 库 的 
副本 集 、 一 个 calendar 数 据 库 的 副本 集 ， 以 及 一 个 mail、tel、music 数 据 
库 的 副本 集 ， 可 将 每 个 副本 集 作 为 一 个 分 片 添加 到 集群 中 ， 这 样 就 可 以 
得 到 一 个 拥有 三 个 分 片 、 五 个 数据 库 的 集群 。 但 是 ， 如 果 还 有 一 个 数据 





那么 mongos 会 拒绝 将 这 个 副本 集 作 为 分 片 添加 到 


14.2.5 ”数据 分 片 


除非 明确 指定 规则 ， 否 则 MongoDB 不 会 自动 对 数据 进行 拆 分 。 如 有 必 
要 ， 必 须 明 确 告知 数据 库 和 集合 。 


假设 我 们 希望 对 music 数 据 库 中 的 artists 集 合 按照 name 键 进行 分 片 。 首 
先 ， 对 music 数 据 库 启用 分 片 : 


> db.enableSharding("music") 


对 数据 库 分 片 是 对 集合 分 片 的 先决 条 件 。 
对 数据 库 启 用 分 片 后 ， 就 可 以 使 用 shardcollection() 命 令 对 集合 分 片 
了 了 : 


> sh.shardcollection("music.artists", {"name" : 1}) 


现在 ， 集 合 会 按照 name 键 进行 分 片 。 如 果 是 对 已 存在 的 集合 进行 分 片 ， 
那么 nane 键 上 必须 有 索引 ， 和 否则 shardcollection() 会 返回 错误 。 如 果 出 
现 了 错误 ， 就 先 创 建 索 引 (mongos 会 建议 创建 的 索引 作为 错误 消息 的 一 
部 分 返回 ) ， 然 后 重 试 shardcollection( ) 命 令 。 


如 要 进行 分 片 的 集合 还 不 存在 ，mongos 会 自动 在 片 键 上 创建 索引 。 


shardcollection() 命 令 会 将 集合 拆 分 为 多 个 数据 块 ， 这 是 MongoDB 迁 
移 数 据 的 基本 单元 。 命 令 成 功 执行 后 ，MongoDB 会 均衡 地 将 集合 数据 
分 散 到 集群 的 分 片上 。 这 个 过 程 不 是 瞬间 完成 的 ， 对 于 比较 大 的 集合 ， 
可 能 会 花费 几 个 小 时 才能 完成 。 


14.3 MongoDB 如 何 妃 踪 集 群 数 据 


每 个 mongos 都 必须 能 够 根据 给 定 的 片 键 找到 文档 的 存放 位 置 。 理 论 上 来 
说 ，MongoDB 能 够 退 踪 到 每 个 文档 的 位 置 ， 但 当 集 合 中 包含 成 百 上 干 
万 个 文档 的 时 候 ， 就 会 变 得 难以 操作 。 因 此 ，MongoDB 将 文档 分 组 为 
块 〈chunk) ， 每 个 块 由 给 定 片 键 特定 范围 内 的 文档 组 成 。 一 个 块 只 存 




















在 于 一 个 分 片上 ， 所 以 MongoDB 用 一 个 比较 小 的 表 就 能 够 维护 块 跟 分 
片 的 映射 。 


例如 ， 如 用 户 集 合 的 片 键 是 {"age" : 1}， 其 中 某 个 块 可 能 是 由 age 值 为 
3~17 的 文档 组 成 的 。 如 果 mongos 得 到 一 个 {"age" : 5} 的 查询 请 求 ， 它 
就 可 以 将 查询 路 由 到 age 值 为 3~17 的 块 所 在 的 分 片 。 


进行 写 操作 时 ， 块 内 的 文档 数量 和 大 小 可 能 会 发 生 改变 。 插 入 文档 可 使 
块 包含 更 多 的 文档 ， 删 除 文 档 则 会 减少 块 内 文档 的 数量 。 如 果 我 们 针对 
儿童 和 中 小 学 生 制 作 游戏 ， 那 么 这 个 age 值 为 3~17 的 块 可 能 会 变 得 越 来 
越 大 。 几 乎 所 有 的 用 户 都 会 被 包含 在 这 个 块 内 ， 且 在 同一 分 片上 。 这 束 
违背 了 我 们 分 布 式 存放 数据 的 初衷 。 因 此 ， 当 一 个 块 增长 到 特定 大 小 
时 ，MongoDB 会 自动 将 其 拆 分 为 两 个 较 小 的 块 。 在 本 例 中 ， 该 块 可 能 
会 被 拆 分 为 一 个 age 值 为 3~11 的 块 和 一 个 age 值 为 12~17 的 块 。 注 意 ， 这 
两 个 小 块 包含 了 之 前 大 块 的 所 有 文档 以 及 age 的 全 部 域 值 。 这 些小 块 变 
大 后 ， 会 被 继续 拆 分 为 更 小 的 块 ， 直 到 包含 age 的 全 部 域 值 。 


块 与 块 之 间 的 age 值 范围 不 能 有 交集 ， 如 3~15 和 12~17。 如 果 存 在 交集 的 

话 ， 那 么 MongoDB 为 了 查询 处 于 交集 中 的 age 值 (如 14) 时 ， 则 需 分 别 

Re 只 在 一 个 块 中 进行 查找 效率 会 更 高 ， 尤 其 是 在 块 分 散在 
中 时 。 


一 个 文档 ， 属 于 且 只 属于 一 个 块 。 这 意味 着 ， 不 可 以 使 用 数组 字段 作为 
片 键 ， 因 为 MongoDB 会 为 数组 创建 多 个 索引 条 目 。 例 如 ， 如 某 个 文档 
的 age 字段 值 是 [5，26，83] ， 该 文档 就 会 出 现在 三 个 不 同 的 块 中 。 

















一 个 常见 的 误解 是 同一 个 块 内 的 数据 保存 在 磁盘 的 同一 
I 这 是 不 正确 的 ， 块 并 不 影响 mongod 保 存 集合 数据 的 方 
工 No 

14.3.1 块 范围 


可 使 用 块 包 含 的 文档 范围 来 描述 块 。 新 分 片 的 集合 起 初 只 有 一 个 块 ， 所 
有 文档 都 位 于 这 个 块 中 。 此 块 的 范围 是 负 无 穷 到 正 无 穷 ， 在 shell 中 





用 $minkey 和 和 $maxKey 表 示 。 


随 痢 块 的 增长 ，MongoDB 会 上 自动 将 其 分 成 两 个 块 ， 范 围 分 别 是 负 无 穷 

到 和 到 正 无 穷 。 两 个 块 中 的 值 相同 ， 范 围 较 小 的 块 包含 比 小 的 所 有 文档 

0 ， 范 围 较 大 的 块 包含 从 一 直到 正 无 穷 的 所 有 文档 (包含 
Da 


用 一 个 例子 来 更 直观 地 说 明 : 假如 我 们 按照 之 前 提 到 的 "age" 字 段 进 行 
分 片 。 所 有 "age" 值 为 3~17 的 文档 都 包含 在 一 个 块 中 : 3 < age < 17。 该 
块 被 拆 分 后 ， ee 其 中 一 个 范围 是 3 < age < 
12， 男 一 个 范围 是 12 < age < 。 这 里 的 12 就 叫做 拆 分 点 (split 
point) 。 


块 信息 保存 在 config.chunks 集 合 中 。 碍 看 集合 内 容 ， 会 发 现 其 中 的 文档 
如 下 《简洁 起 见 ， 这 里 忽略 了 一 些 字 段 ) : 





> db.chunks.find(criteria, fmin”:， 1，"max”: 1}) 
"_id" : "test.users-age -100.0", 
"min" : {"age" : -100}, 

"max" : {"age" :; 23} 

} 

"_id" : "test.users-age 23.0", 
"min" : {"age" : 23}, 
"max" : {"age" : 100} 
} 
{ 
"_id" : "test.users-age 100.0", 
"min" : {"age" :; 100}, 
"max" : {"age" : 1000} 

让 


基于 以 上 config.chunks 文 档 ， 不 同文 档 在 块 中 的 分 布 情况 如 下 例 所 示 : 


ef id" : 123, "age" : 50} 


0 第 二 个 块 中 ， 因 为 第 二 个 块 包 仿 age 值 为 23~100 的 所 有 
文 


e {"_id" : 456, "age" :; 100} 


该 文档 位 于 第 三 个 块 中 ， 因 为 较 小 的 边界 值 是 包含 在 块 中 的 。 第 二 


个 块 包含 了 age 值 小 于 100 的 所 有 文档 ， 但 不 包含 等 于 100 的 文档 。 
e {"_id" : 789，"age"”: -101} 


该 文档 不 位 于 上 面 所 示 的 这 些 块 中 ， 而 是 位 于 一 个 比 第 一 个 块 范 
更 小 的 块 中 。 


可 使 用 复合 片 键 ， 工 作 方 式 与 使 用 复合 索引 进行 排序 一 样 。 假 如 
在 {"username" : 1，"age" : 1} 上 有 一 个 片 键 ， 那 么 可 能 会 存在 如 下 块 
范围 : 








t 
"_id" : "test.users-username MinkKeyage_MinkKey", 
min" 
"Username" : { "$minkey" : 1 }, 
"age" : { "$minKey" : 1 } 
}, 
"max" : { 
"Username" : "User107487", 
"age" : 73 
} 
} 
{ 
"_id" : "test.users-username_\"user107487\"age_73.0", 
"min" 
"Username" : "User107487", 
"age" : 73 
}, 
max" 
"Username" : "User114978", 
"age" : 119 
} 
} 
{ 
"_id" :; "test.users-username_\"user114978\"age_119.0", 
min’ 
"Username" : "User114978", 
"age" : 119 
}, 
"max" : 
"Username" : "User122468", 
"age" : 68 
} 
} 





因此 ， 对 于 一 个 给 定 的 用 户 名 (或 者 是 用 户 名 和 年 龄 )，mongos 可 轻易 
找到 其 所 对 应 的 文档 。 但 如 果 只 给 定年 龄 ，mongos 束 必须 查看 所 有 【或 
者 几乎 所 有 ) 块 。 如 果 和 希望 基于 age 的 碍 询 能 够 被 路 由 到 正确 的 块 上 ， 

则 需 使 用 “相反 ”的 片 键 : {"age" : 1，"username" : 1}。 从 这 个 例子 中 
我 们 可 以 得 出 一 个 结论 : 基于 片 键 第 二 个 字段 的 范围 可 能 会 出 现在 多 个 


块 中 。 
14.3.2” 拆 分 块 


ee UA 一 旦 达到 茶 个 装 值 ， 就 会 检 
下 是 合 需要 对 块 进行 拆 分 ， 如 图 14-1 和 图 14-2 所 示 。 如 果 块 确实 需要 被 
拆 分 ，mongos 就 会 在 和 配置 服务 器 上 更 新 这 个 块 的 元 信息 。 块 拆 分 只 需 改 
变 块 的 元 数据 即 可 ， 而 无 需 进行 数据 移动 。 进 行 拆 分 时 ， 配 置 服务 顺 会 
创建 新 的 块 文 要 ， 同 时 修改 旧 的 块 范围 《 即 max 值 ) 。 拆 分 完成 后 ， 
mongos 会 重 置 对 原始 块 的 追踪 器 ， 同 时 为 新 的 块 创建 新 的 追踪 器 。 











收 到 客户 端 发 起 的 写 请 求 时 ，mongos 会 检查 当前 块 的 拆 分 国 


mongos 
拆 分 请 求 





图 14-2 ”如 果 达 到 了 拆 分 靖 值 点 ，mongos 就 会 问 分 片 发 起 一 个 针对 该 
拆 分 点 的 拆 分 请 求 








mongos 同 分 片 询问 某 块 


是 否 需 被 拆 分 时 ， 分 片 会 对 块 大 小 进行 粗略 的 计 


算 。 如 果 发 现 块 正在 不 断 变 大 ， 它 就 会 计算 出 合适 的 拆 分 点 ， 然 后 将 这 
些 信 息 发 送 给 mongos， 如 图 14-3 所 示 。 


mongos 


拆 分 一 也 
阅 值 点 


图 14-3 





op 
可 能 的 拆 分 点 
可 能 的 拆 分 点 


分 上 请 计算 块 的 拆 分 点 ， 并 将 这 些 信 息 发 回 mongos 


分 片 有 时 可 能 会 找 不 到 任何 可 用 的 拆 分 点 〈 即 使 此 块 较 大 ) ， 因 为 合法 
拆 分 块 方法 有 限 。 有 具有 相同 片 键 的 文档 必须 保存 在 相同 的 块 中 ， 因 此 块 
只 能 在 厂 键 的 值 肥 生变 化 的 反对 块 进行 拆 分 。 例 如 ， 如 果 厂 键 的 值 等 于 
age 的 值 ， 则 下 列 块 可 在 片 键 发 生变 化 的 点 个 拆 分 : 


{"age" : 13, "Username" : 
{"age" : 13, "Username" : 
人 // 拆 分 点 

{"age" : 14, "username" : 
{"age" : 14, "Username" : 
{"age" : 14, "Username" : 
{"age" : 14, "Username" : 
a // 拆 分 点 

{"age" : 15, "Username" : 
{"age" : 15, "Username" : 


mongos 无 需 在 每 个 可 用 的 拆 分 点 对 块 进行 拆 分 ， 


分 所 中 选择 一 个 。 


"ian"} 
"randolph"} 


"randolph"} 
"eric"} 
"hari"} 
"mathias"} 


"greg"} 
"andrew"} 


但 拆 分 时 只 能 从 这 些 拆 


例如 ， 如 果 块 包含 下 列 文档 ， 则 此 块 不 可 拆 分 ， 除 非 应 用 开始 插入 不 同 


> NM 
片 键 的 文档 : 
{"age" : 12, "Username" : 
{"age" : 12, "Username" 
{"age" : 12, "Username" : 
{"age" : 12, "Username" : 


"kevin"} 

: "spencer"} 
"alberto"} 
"tad"} 


因此 ， 拥 有 不 同 的 片 键 值 是 非常 重要 的 。 其 他 重要 属性 会 在 下 一 半 讲 


到 。 


如 果 在 mongos 试 图 进行 拆 分 时 有 一 个 配置 服务 器 挂 了 ， 那 么 mongos 就 
无 法 更 新 元 数据 ， 如 图 14-4 所 示 。 在 进行 拆 分 时 ， 所 有 配置 服务 器 都 必 
须 可 用 有 旦 可 达 。mongos 如 果 不 断 接收 到 块 的 写 请 求 ， 则 会 处 于 尝试 拆 分 
与 拆 分 失败 的 循环 中 。 只 要 配置 服务 器 不 可 用 于 拆 分 ， 拆 分 就 无 法 进 
行 ，mongos 不 断 发 起 的 拆 分 请 求 就 会 拖 慢 mongos 和 当前 分 片 ( 每 次 收 
到 的 写 请求 都 会 重复 图 14-1 到 图 14-4 演 示 的 过 程 ) 。 这 种 mongos 不 断 重 
复发 起 拆 分 请 求 却 无 法 进行 拆 分 的 过 程 ， 叫 做 拆 分 风暴 (split 

storm) 。 防 止 拆 分 风暴 的 唯一 方法 是 尽 可 能 保证 配置 服务 器 的 可 用 和 
0 也 可 重启 mongos， 重 置 写 入 计数 器 ， 这 样 它 束 不 再 处 于 拆 分 阔 值 
= 











mongos 


拆 分 
国 值 点 





图 14-4 mongos 选 择 一 个 拆 分 点 ， 然 后 试图 将 这 些 信息 通知 给 配置 服 
务 器 ， 但 是 配置 服务 器 不 可 达 。 因 此 ， 它 仍 位 于 这 个 块 的 拆 分 国 值 
点 。 随 后 的 任何 写 请 求 都 会 重复 上 面 的 过 程 


另 一 个 问题 是 ，mongos 可 能 不 会 意识 到 它 需 要 拆 分 一 个 较 大 的 块 。 并 没 
有 一 个 全 局 的 计数 器 用 于 追踪 每 个 块 到 底 有 多 大 。 每 个 mongos 只 是 计算 
其 收 到 的 写 请 求 是 否 达到 了 特定 的 国 值 点 〈 如 网 14-5 所 示 ) 。 也 就 是 
说 ， 如 果 mongos 进 程 频 过 地 上 线 和 宕 机 ， 那 么 mongos 在 再 次 宕 机 之 前 
可 能 永远 无 法 收 到 足以 达到 拆 分 国 值 点 的 与 请求， 因此 块 会 变 得 越 来 越 
大 ， 如 图 14-6 所 示 。 








图 14-5” 随 者 mongos 进 程 不 断 执行 写 请 求 ， 它 们 的 计数 器 也 会 不 断 增 
长 ， 直 至 拆 分 国 值 点 





客户 端 


图 14-6 ”如 果 mongos 进 程 不 断 重 启 ， 它 们 的 计数 器 可 能 永远 也 不 会 到 
达 靖 值 点 ， 因 此 块 的 增长 不 存在 最 大 值 


防止 这 种 情况 发 生 的 第 一 种 方式 是 减少 mongos 进 程 的 波动 。 尽 可 能 保证 
mongos 进 程 可 用 ， 而 不 是 在 需要 的 时 候 将 其 开启 ， 不 需要 的 时 候 又 将 其 
关 掉 。 然 而 ， 实 际 部 署 中 可 能 会 发 现 ， 维 持 不 需要 的 mongos 持 续 运行 开 
销 过 大 。 这 时 可 选用 另 一 各 方式， 使 块 的 大 小 比 实际 预期 稍 小 些 ， 这 样 
就 更 容易 达到 拆 分 阔 值 点 。 


可 在 启动 mongos 时 指定 --nosplit 选 项 ， 从 而 关闭 块 的 拆 分 。 

14.4 ”均衡 器 

均衡 器 (balancer) 负责 数据 的 迁移 。 它 会 周期 性 地 检查 分 片 则 是 否 存 
在 不 均衡 ， 如 果 存 在 ， 则 会 开始 块 的 迁移 。 虽 然 均 衡器 通常 被 看 作 是 单 
一 实体 ， 但 每 个 mongos 有 时 也 会 扮演 均衡 器 的 角色 。 

每 隔 几 秒 钟 ，mongos 束 会 尝试 变 丑 为 均衡 器 。 如 果 没 有 其 他 可 用 的 均衡 


器 ，mongos 就 会 对 整个 集群 加 锁 ， 以 防 正 配置 服务 器 对 集群 进行 修改 ， 
然后 做 一 次 均衡 。 均 衡 并 不 会 影响 mongos 的 正常 路 由 操作 ， 上 所 以 使 用 





mongos 的 客户 端 不 会 受到 影 啊 。 
查看 config.locks 集 合 ， 可 得 知 哪 一 个 mongos 是 均衡 器 : 


> db.1locks.findone({"_id" :; "balancer"}) 
{ 
"_id" :; "balancer", 
"process" : "router-23:27017:1355763351:1804289383", 
"state" : 0, 
"ts" : ObjectId("50cf939c051fcdb8139fc72c")， 
"when" : ISODate("2012-12-17T21:50:20.0232Z"), 
"who" : "router-23:27017:1355763351:;1804289383:Balancer:846930886", 
"why" : "doing balance round" 





config.locks 集 合 会 姐 踪 所 有 集群 范围 的 锁 。_id 为 balancer 的 文档 就 是 均 
衡器 。 从 其 中 的 who 字 上 段 可 得 知 当 前 或 曾经 作为 均衡 器 的 mongos 是 哪 一 
个 : 在 本 例 中 是 router-23:27017。state 字 段 表 明 均 衡器 是 否 正 在 运行 : 
0 表示 处 于 非 活动 状态 ，2 表 示 正 在 进行 均衡 (1 表示 mongos 正 在 尝试 得 
到 锁 ， 但 还 没有 得 到 ， 通 常 不 会 看 到 状态 1) . 


mongos 成 为 均衡 器 后 ， 就 会 检查 每 个 集合 的 分 块 表 ， 从 而 但 看 是 否 有 分 
片 达到 了 均衡 浆 值 (balancing threshold) 。 不 均衡 的 表现 指 ， 一 个 分 片 
明显 比 其 他 分 片 拥有 更 多 的 块 (精确 的 病 值 有 多 种 不 同情 况 : 集合 越 大 
越 能 承受 不 均衡 状态 ) 。 如 果 检 测 到 不 均衡 ， 均 衡器 就 会 开始 对 块 进行 
再 分 布 ， 以 使 每 个 分 片 拥 有 数量 相当 的 块 。 如 果 没 有 集合 达到 均衡 国 
值 ，mongos 就 不 再 充当 均衡 器 的 角色 了 。 


假如 有 一 些 集合 到 达 了 国 值 ， 均 衡器 则 会 开始 做 块 迁 移 。 它 会 从 负载 比 
较 大 的 分 片 中 选择 一 个 块 ， 并 询问 该 分 片 是 否 需 要 在 迁移 之 前 对 块 进行 
拆 分 。 完 成 必要 的 拆 分 后 ， 束 会 将 甘 迁 移 至 块 数量 较 少 的 机 器 上 。 


使 用 集群 的 应 用 程序 无 需 知道 数据 迁移 : 在 数据 迁移 完成 之 前 ， 所 有 的 
读 写 请 求 都 会 被 路 由 到 旧 的 块 上 。 如 果 元 数据 更 新 完成 ， 那 么 所 有 试图 
访问 上 朋 位 置 数据 的 mongos 进 程 都 会 得 到 一 个 错误 。 这 些 错误 应 该 对 客户 
端 不 可 见 : mongos 会 对 这 些 错误 做 静默 处 理 ， 然 后 在 新 的 分 片上 重新 执 
行 之 前 的 操作 。 


有 时 会 在 mongos 的 日 志 中 看 到 “unable to setshardversion” 的 信息 ， 这 是 
一 种 很 常见 的 错误 。mongos 在 收 到 这 种 错误 时 ， 会 查看 配置 服务 器 数据 
的 新 位 置 ， 并 更 新 块 分 布 表 ， 然 后 重新 执行 之 前 的 请 求 。 如 果 成 功 从 新 























的 位 置 得 到 了 数据 ， 则 会 将 数据 返回 给 客户 端 。 除 了 日 志 中 会 记录 一 条 
错误 日 志 外 ， 整 个 过 程 好 像 什么 错误 部 没有 发 生 过 一 样 。 


如 果 由 于 配置 服务 器 不 可 用 导致 mongos 无 法 获取 块 的 新 位 置 ， 则 会 向 客 
户 端 返回 错误 。 所 以 ， 应 尽 可 能 保证 配置 服务 器 处 于 可 用 状态 。 








第 15 章 ”选择 乒 键 
使 用 分 片 时 ， 最 重要 也 是 最 困难 的 任务 就 是 选择 数据 的 分 发 方式 。 需 要 
理解 MongoDB 的 数据 分 发 机 制 才 能 够 做 出 明智 的 选择 。 本 章 则 在 帮助 
大 家 更 好 地 选择 片 键 ， 内 容 包括 ; 





。 如 何在 多 个 可 用 的 片 键 中 做 出 选择 ; 
。 不 同 使 用 场景 中 的 片 键 选择 ; 

。 哪些 键 不 能 作为 片 键 ; 

。 目 定义 数据 分 发 方式 的 可 选 策 略 ; 
。 如 何 手动 对 数据 分 片 。 


由 于 前 儿 间 已 经 讲述 了 分 片 的 基本 知识 ， 所 以 本 章 假 设 大 家 对 分 片 已 有 
基本 的 了 解 。 


15.1 检查 使 用 情况 


对 集合 进行 分 片 时 ， 要 选择 一 或 两 个 字段 用 于 拆 分 数据 。 这 个 键 〈 或 这 
些 键 ) 束 叫做 片 键 。 一 旦 拥有 多 个 分 片 ， 再 修改 厂 键 几乎 是 不 可 能 的 事 
0 
常 重 要 的 。 


为 了 选择 合适 的 上 户 键 ， 需 了 解 目 己 的 工作 量 以 及 片 键 是 如 何 对 应 用 程序 
的 请 求 进行 分 及 的 。 这 个 问题 不 太 好 描述 ， 可 以 笃 试 一 些小 例子 ， 或 者 
古 在 备用 数据 集 上 做 一 些 实验 。 本 市 含有 大 量 图 表 和 解释 说 明 ， 但 最 好 
的 方式 还 是 在 自己 的 数据 集 上 试 一 试 。 


对 集合 进行 分 片 前 ， 先 回答 以 下 问题 。 

















。 计划 做 多 少 个 分 片 ? 拥有 3 个 分 片 的 集群 比 拥 有 1000 个 分 片 的 集群 
更 具有 灵活 性 。 随 痢 集 群 变 得 越 来 越 大 ， 不 应 做 那些 需要 得 询 所 有 
分 片 的 查询 ， 因 此 几乎 所 有 碍 询 都 须 包 含 片 键 。 

。 分 片 是 为 了 减少 读 写 延 迟 吗 ? (延迟 指 某 个 操作 花费 的 时 间 ， 如 写 
操作 花费 20 嗓 秒 ， 但 我 们 需要 将 其 缩减 至 10 坚 秒 ) 。 降 低 写 延迟 的 
方式 通 疝 是 将 请 求 发 送 到 地 理 位 置 更 近 的 服务 器 或 者 是 更 强大 的 机 





时 


分 片 是 为 了 增加 读 写 吞吐 量 吗 ? (吞吐 量 指 集 群 在 同一 时 间 能 够 处 
理 的 请 求 数 量 : 集群 能 够 在 20 坚 秒 内 处 理 1000 次 写 请 求 ， 但 我 们 需 
要 其 能 够 在 20 毫 秒 内 处 理 5000 次 写 请 求 ) 。 增 加 吞吐 量 通常 需要 提 
高 并 行 性 ， 并 确保 请 求 被 均衡 地 分 发 到 各 集群 成 员 上 。 

分 片 是 为 了 增加 系统 资源 吗 ? (比如 ， 每 GB 数据 提供 MongoDB 更 
多 的 可 用 RAM) 。 如 果 是 这 样 ， 可 能 会 希望 尽量 保持 工作 和 集 较 


小 。 


根据 这 些 问 题 来 对 不 同 卢 键 进行 评估 ， 并 判断 所 选 厂 键 是 否 适 用 于 自己 
的 情况 。 这 样 做 能 够 提供 所 需 的 目标 查询 吗 ? 能 够 按 所 需 方 式 提高 系统 
0 0 
要 求 吗 ? 


15.2 ”数据 分 发 


拆 分 数据 最 常用 的 数据 分 发 方式 有 三 种 :升序 片 键 (ascending key) 、 
随机 分 发 的 片 键 和 基于 位 置 〈location-based) 的 片 键 。 也 有 一 些 其 他 类 
但 大 部 分 都 属于 这 三 种 类 别 。 以 下 几 节 会 分 别 介 绍 这 
三 种 方式 。 


15.2.1 升序 片 键 


升序 片 键 通 第 有 扩 类 似 于 "date" 字 上 段 或 者 是 objectI1d， 是 一 种 会 随 着 时 
间 稳 定 增 长 的 字段 。 目 增长 的 主键 是 升 友 键 的 力 一 个 例子 ， 但 它 很 少 出 
现在 MongoDB 中 ， 除 非 要 从 其 他 数据 库 中 导入 数据 。 


假设 我 们 依据 升序 键 做 分 片 ， 如 使 用 objectId 的 集合 中 的 "_id" 键 。 如 
果 基 于 "_id" 分 乒 ， 那 么 集合 就 会 依据 不 同 的 "_id" 范 围 被 拆 分 为 多 个 

块 ， 如 图 15-1 所 示 。 这 些 块 会 分 及 在 我 们 这 个 拥有 分 片 的 集群 中 (比如 
说 3 个 分 片 ) ， 如 图 15-2 所 示 。 


























图 15-1 集合 依据 不 同 的 objectId 范 围 被 拆 分 ， 每 个 范围 都 是 一 个 块 


假设 要 创建 一 个 新 文 要 ， 它 会 位 于 哪个 块 呢 ? 答案 是 范围 
为 objectId("5112fae96b4a4b396ff9dgee5") 到 $maxKey 的 块 。 这 个 块 叫做 
最 大 块 (max chunk) ， 因 为 该 块 包含 有 $maxkey。 


如 果 再 插入 一 个 文档 ， 它 也 会 出 现在 最 大 块 中 。 事 实 上 ， 接 下 来 的 每 个 
新 文档 都 会 被 插入 到 最 大 块 中 ! 每 一 个 插入 文档 的 "_id" 字 上 段 值 都 会 比 
之 前 文档 的 "_ id" 字段 值 更 接近 正 无 穷 〈 因 为 objectId 一 直 在 增长 ) ， 
所 以 这 些 文档 都 会 插入 到 最 大 块 中 。 





分 片 0000 


Objectld( ?112fa9bb4a4b396ff986671b ) -> 
Objectld( 5112faa0b4a4b396ff9732db”) 


Objectld( “5112faa0b4a4b396ff9732db") -> 


Objectld("5112fabbb4a4b396ff97fb40") 


Objectld("5112fabbb4ad4b396ff97fb40") -> 
Objectld("S112facOb4a4b396ff98c6f8") 





分 片 0001 


?minkey -> Objectld("5112fa61b4a4b396ff960262") 


Objectld( 5112fa61b4a4b396ff960262 ) -> 
Objectld( ?112 介 9bb4a4b396ff96671b ) 


0bjectld("5112fac0b4a4b396ff98c6f8 ) -> 
Objectld("5112facsbA4a4b396ff998b59") 


Objectld("5112facsb4a4b396ff998b59") -> 
Objectld("5112facab4a4b396ff9a56c5") 





分 片 0002 


Objectld("5112facab4a4b396ff9a56c5") -> 
Objectld("S112facfb4a4b396ff9b1b55") 


Objectld("S112facfb4a4b396ff9b1b55") -> 
Objectld("5112fad4b4a4b396ff9bd69b") 


Objectld("5112fad4b4a4b396ff9bd69b") -> 
Objectld("5112faeQOb4a4b396ff9d0ee5") 


Objectld("5112faeOb4a4b396ff9d0ee5") -> SmaxKey 





图 15-2 ” 块 在 分 片 中 是 以 随机 顺序 分 发 的 


这 样 会 带 来 一 些 有 趣 的 属性 ， 通 常 都 是 些 不 良 属性 。 首 先 ， 所 有 的 写 请 
求 都 会 被 路 由 到 一 个 分 片 〈 本 例 中 是 shard0002) 中。 该 块 是 唯一 一 个 不 
断 增长 和 拆 分 的 块 ， 因 为 它 是 唯一 一 个 能 够 接收 到 插入 请 求 的 块 。 随 着 
新 数据 的 不 断 插入 ， 该 最 大 块 会 不 断 拆 分 出 新 的 小 块 ， 如 图 15-3 所 示 。 


Objectld("5112fad4b4a4b396ff9bd69b") -> Objectld("5112fad4b4a4b396ff9bd69b") -> 
Objectld("S112faeOb4a4b396ff9dOees") 0bjectld( 5112fae0b4a4b396ff9d0ee5 ) 


Objectld("5112fae0b434b396ff9d0ee5") -> 
Objectid("5112ff8fb4a4b396ffodc1c4') 


Objectld("5112fae0b4a4b396ff9d0ee5") -> $maxKey Objectld("5112ff8fb4a4b396ff9dc1c4") -> 
Objectld("S112ff96b4a4b396ff9ec66c") 


Objectld("S112ff96b4a4b396ff9ec66c") -> $maxKey 





图 15-3 ”最 大 块 不 断 增长 ， 不 断 被 拆 分 为 多 个 块 


这 种 模式 经 常会 导致 MongoDB 的 数据 均衡 处 理 变 得 更 为 困难 ， 因 为 所 
有 的 新 块 都 是 由 同一 分 片 创建 的 。 因 此 ，MongoDB 必 须 不 断 将 一 些 块 
移 至 其 他 分 片 ， 而 不 能 像 在 一 个 比较 均衡 分 发 的 系统 中 那样 ， 只 需 纠 正 
那些 比较 小 的 不 均衡 就 好 了 。 


15.2.2 ”随机 分 发 的 厂 键 

另 一 种 方式 是 随机 分 发 的 片 键 。 随 机 分 发 的 键 可 以 是 用 户 名 、 邮 件 地 
址 、UDID (Uniqgue Device IDentifier， 唯 一 设备 标识 符 ) 、MD5 散 列 
值 ， 或 者 是 数据 集中 其 他 一 些 没有 规律 的 健 。 


假如 请 键 是 0 和 1 之 间 的 随机 数 ， 各 分 片上 随机 分 发 的 块 如 图 15-4 所 示 。 








分 片 0000 


$minKey -> 
0.07152752857759748 


0.3050852404345105 -> 0.3909494812833331 





0.5909494812833331 -> 0.6969766499990353 


分 片 0001 


0.6969766499990353 -> 0.8400606470845913 
0.8400606470845913 -> 0.9190519609736775 
0.9190519609736775 -> 0.9999498302686232 
0.9999498302686232 -> 
SmaxKey 
分 片 0002 
0.07152752857759748 -> 0.15425320872988635 
0.15425320872988635 -> 0.25743183243034107 





0.25743183243034107 -> 0.3640577812240344 
0.3640577812240344 -> 0.50508524043451035 





图 15-4 如 前 一 节 所 述 ， 块 随机 地 分 发 在 集群 中 


随 着 更 多 的 数据 被 插入 ， 数 据 的 随机 性 意味 看， 新 插入 的 数据 会 比较 均 
0 可 以 试 厦 插入 10000 个 文档 ， 来 验证 一 下 会 发 
人 : 


> Var servers = {} 
> Var findShard = function (id) { 
i var explain = db.random.find({_id:id}).explain(); 
for (var i in explain.shards) { 
var server = explain.shards[i][90]; 
if (server.n == 1) { 
if (server.server in servers) { 
servers[server.server]++; 
} else { 
servers[server.server] = 1; 





} 
} 


} 
> ‘for (var i = 0; i < 10000; i++) { 
var id = ObjectId(); 
db.random,.insert({"_id" : id, "x" : Math.random()}); 


findSshard(id); 
> servers 
{ 
"spock:30001" : 2942, 
"spock:30002" : 4332, 
"spock:30000" : 2726 
} 


由 于 写 入 数据 是 随机 分 发 的 ， 各 分 片 增长 的 速度 应 大 致 相同 ， 这 就 减少 
了 需要 进行 迁移 的 次 数 。 


使 用 随机 分 发 片 键 的 唯一 次 闻 在 于 ，MongoDB 在 随机 访问 超出 RAM 大 
小 的 数据 时 效率 不 局 。 然而 ， 如 果 拥 有 足够 多 的 RAM 或 者 是 并 不 介意 
系统 性 能 的 话 ， 使 用 随机 片 键 在 集群 上 分 配 负载 是 非常 好 的 。 


15.2.3 ”基于 位 置 的 片 键 


基于 位 置 的 片 键 可 以 是 用 户 的 PP、 经 纬度 ， 或 者 是 地 址 。 位 置 片 键 不 必 
与 实际 的 物理 位 置 字段 相关 : 这 里 的 “位 置 ?比较 抽象 ， 数 据 会 依据 这 
个 “位 置 ”进行 分 组 。 无 论 如 何 ， 所 有 与 该 键 值 比较 接近 的 文档 都 会 被 保 
存在 同一 范围 的 块 中 这 样 可 以 比较 方便 地 将 数据 与 相应 的 用 户 ， 以 及 
相关 联 的 数据 保存 在 一 起 。 





例如 ,假设 我 们 有 一 个 集合 的 文档 是 按照 PP 地 址 进行 分 片 的 。 文 档 会 依 
据 IP 地 址 被 分 成 不 同 的 块 ， 并 随机 分 布 在 集群 中 ， 如 图 15-5 所 示 。 


分 片 0000 分 片 0001 分 片 0002 


"002.075.101.096" -> 
"022.089.076.022" 


SminKey -> "072.034.009.012" -> 
"002.075.101.096" "090.118.120,031" 


"022.089.076.022" -> 
"038.041.058.074" 


"055.081.104.118" -> "090.118.120.031" -> 


"072.034.009.012" "127.126.116.1295" 


"038.041.058.074" -> 
"055.081.104.118" 


"127.126.116.125" -> 
SmaxKey 





图 15-5” ”IP 地 址 集合 中 的 块 分 发 情况 


如 果 希 望 特定 范围 的 块 出 现在 特定 的 分 片 中 ， 可 以 为 分 片 添 加 tag， 然 
后 为 块 指定 相应 的 tag。 在 本 例 中 ， 假 如 我 们 希望 特定 范围 的 卫 段 出 现 
在 特定 的 分 片 中 ， 比 如 让 “56.*.*.*”( 美 国 邮 政 署 的 也 段 ) 出 现在 
shard0000， 让 “17.*.*.*»”( 苹 果 公 司 的 IP 段 ， 出 现在 shard0000 或 
shard0002 上。 我 们 并 不 关心 其 他 的 IP 出 现在 什么 位 置 。 可 通过 为 分 片 指 
定 tag， 请 求 均 衡 句 实现 该 指令 : 

> sh.addshardTag("shard0000", "USPS") 


> sh.addshardTag("shard0000", "Apple") 
> sh.addshardTag("shard0002", "Apple") 


然后 ， 创 建 下 列 规则 : 


> sh.addTagRange("test.ips", {"ip" : "056.000.000.000"}, 
{"ip" : "057.000.000.000"}, "USPS") 


这 样 就 会 将 所 有 IP 地 址 大 于 等 于 56.0.0.0 和 小 于 57.0.0.0 的 文档 分 发 到 标 
签 为 “USPS” 的 分 片上 。 接 下 来 ， 再 为 苹果 公司 的 IP 段 添加 一 条 规则 : 


> sh. addTagRange(” test.ips" tp : "017.000.000.000"}, 
{"ip" :; "018.000.000. 666， '}, "Apple") 





均衡 器 在 移动 块 时 ， 会 试图 将 这 些 范围 的 块 移动 到 这 些 分 片上 。 注 意 ， 

该 过 程 不 会 立即 生效 。 没 有 被 打 过 标签 的 块 仍 会 正常 移动 。 均 衡器 会 继 
续 尝 试 将 块 均衡 地 分 发 在 不 同 的 分 片上 。 

15.3 ” 片 键 策 略 

本 节 我 们 将 学 习 针 对 不 同类 型 应 用 程序 的 几 种 片 键 选项 。 

15.3.1 ” 散 列 片 键 

如 果 追 求 的 是 数据 加 载 速度 的 极致 ， 那 么 散 列 片 键 (Hashed Shard 
Key) 是 最 佳 选择 。 散 列 片 键 可 使 其 他 任何 键 随机 分 发 ， 因 此 ， 如 果 打 
算 在 大 量 查 询 中 使 用 升序 键 ， 但 同时 又 希望 写 入 数据 随机 分 发 的 话 ， 散 
列 片 键 会 是 个 非常 好 的 选择 。 


浆 闪 是 无 法 使 用 散 列 片 键 做 指定 目标 的 范围 查询 。 如 无 需 做 范围 查询 ， 
那么 散 列 片 键 就 非常 合适 。 


创建 一 个 散 列 片 键 ， 首 先 要 创建 散 列 索引 : 





> db.users.ensureIndex({"username" : "hashed"}) 
然后 对 集合 分 片 : 

> sh.shardcollection("app.users", {"username" :; "hashed"}) 

{ "collectionsharded" : "app.users", "ok" : 1 } 


如 果 在 一 个 不 存在 的 集合 上 创建 散 列 片 键 ，shardcollection 的 行为 会 比 
较 有 趣 : 它 假设 我 们 希望 对 数据 块 进行 均衡 分 友 ， 所 以 会 立即 创建 一 些 
并 将 这 些 块 分 发 在 集群 中 。 例 如 ， 在 创建 散 列 片 键 之 前 ， 集 合 
0 下 : 


> sh.status() 
-- Sharding Status --- 


sharding version: { "_id" : 1, "version" ; 3 } 
shards: 
{ "_id" :; "shard0000", "host" : "lJocalhost:30000" } 
{ "_id" :; "shard0001", "host" : "lJocalhost:30001" } 
"_id" :; "shard0002", "host" : "Jlocalhost:30002" } 
databases : 
{ "_id" :; "admin", "partitioned" : false, "primary" : "config" } 


{ "_id" :; "test", "partitioned" : true, "primary" : "shard0001" } 


shardcollection 命 令 返 回 后 ， 每 个 分 片上 立即 出 现 了 两 个 块 ， 并 均衡 地 
分 发 在 整个 集群 中 : 


> sh.status() 
- Sharding Status --- 


sharding version: { "_id" : 1, "version" :; 3 } 
shards: 
{ "_id" : "shard0000", "host" : "localhost:30000" } 
{ "_id" : "shard0001", "host" : "localhost:30001" } 
"_id" : "shard0002", "host" : "localhost:30002" } 
databases : 
{ "_id" : "admin", "partitioned" : false "primary" : "config" } 
{ "_id" : "test", "partitioned" : true, "primary" : "shard0001" } 
test ,foo 
Shard key: { "username" : "hashed" } 
chunks: 
shard0000 2 
Shard0001 2 
Shard0002 2 
{ "username" : { "$MinKey" : true } 


-->> { "UsSername" : NumberLong("-6148914691236517204") } 
on : Shard0000 { "t" : 3000, "i" :; 2 } 

{ "Username" : NumberLong("-6148914691236517204") } 
-->> { "UsSername" : NumberLong("-3074457345618258602") } 
on : Shard0000 { "t" : 3000, "i" ; 3} 


{ "Username" : NumberLong("-3074457345618258602") } 
-->> { "USername" : NumberLong(0) } 
on : Shard0001 { "t" : 3000, "i" :; 4 } 

{ "username" : NumberLong(0) } 


-->> { "UsSername" : NumberLong("3074457345618258602") } 
on : shardo001 { "t" : 3000, "i" ; 5 } 

{ "Username" : NumberLong("3074457345618258602") } 
-->> { "UsSername" : NumberLong("6148914691236517204") } 
on : Shard0002 { "t" : 3000, "i" ; 6} 

{ "username" : NumberLong("6148914691236517204") } 
-->> { "UsSername" : { "$MaxKey" : true } } 
on : Shard0002 { "t" : 3000, "i" :; 7 } 


注意 ， 现 在 集合 中 还 没有 文档 ， 但 当 插 入 新 文档 时 ， 写 请 求 一 开始 束 会 
被 均衡 地 分 发 到 不 同 的 分 片上 。 通 常 需要 等 竺 块 的 增长 与 拆 分 ， 直 到 块 
移动 时 再 将 写 请 求 分 发 到 其 他 分 片上 。 使 用 这 种 自动 机 制 ， 数 据 块 从 一 
开始 就 会 均衡 地 分 友 在 所 有 分 片上 。 


使 用 散 列 片 键 存在 着 一 定 的 局 限 性 。 首 先 ， 不 能 使 用 unique 选 项 。 其 
次 ， 与 其 他 片 键 一 样 ， 不 能 使 用 数组 字段 。 最 后 注意 ， 浮 点 型 的 值 会 先 
被 取 整 ， 然 后 才 会 进行 散 列 ， 所 以 1 和 1.999999 会 得 到 相同 的 散 列 值 。 
15.3.2 ”GridFS 的 散 列 片 键 


在 对 GridFS 集 合 做 分 片 之 前 ， 确 保 已 理解 了 GridFS 的 数据 存储 机 制 ( 第 











6 章 有 详细 介绍 ) 。 


在 接 下 来 的 介绍 中 ,“ 块 ”(chunks) 这 一 术语 会 存在 多 重 含义 ， 因 为 
GridFS 会 将 文件 拆 分 为 块 ， 而 分 片 也 会 将 集合 拆 分 为 块 。 因 此 ， 在 本 章 
后 续 内 容 中 ， 分 别 以 “GridFS 块 "和 “分 片 块 * 表 示 这 两 种 块 。 


GridFS 集 合 通 常 来 说 非常 适合 做 分 片 ， 因 为 它们 包含 大 量 的 文件 数据 。 
但 是 ， 在 fs.chunks 上 自动 创建 的 索引 并 不 是 特别 适合 作为 分 片 

键 : {"_id" : 4} 是 一 个 升序 键 ，{"files_id"” : 1，"n" : 本 使 用 了 
fs.files 的 _id 字 段 ， 因 此 它 也 是 一 个 升序 键 。 


但 是 ， 如 果 在 "files_id" 字 段 上 创建 散 列 索引 ， 则 每 个 文件 都 会 被 随机 
分 发 到 集群 中 。 但 是 一 个 文件 只 能 被 包含 在 一 个 单一 的 块 中 。 这 是 非 冲 
好 的 ， 因 为 ， 写 请 求 被 均衡 地 分 发 到 所 有 分 片上 ， 而 读 取 文件 数据 时 只 
再 查询 一 个 单一 的 分 片 即 可 。 


为 实现 这 种 策略 ， 必 须 在 {"files_id" : "hashed"} 上 创建 新 的 索引 在 
本 书 编 写 之 时 ，mongos 还 不 文 持 使 用 复合 索引 的 子 集 作为 请 键 ) 。 然 后 
依据 这 个 字段 对 集合 分 片 : 

> db.fs.chunks.ensureIndex({"files_id" : "hashed" 


> sh.shardCcollection("test.fs.chunks", {"files id" : "hashed"}) 
{ "collectionsharded" : "test.fs.chunks", "ok" :; 1 } 














另外 提醒 一 下 ， 由 于 fs.files 集 合 比 fs.chunks 集 合 小 得 多 ，fs.files 集 合 可 能 
需要 做 分 片 ， 也 可 能 不 需要 。 可 以 对 该 集合 做 分 片 ， 但 通 冲 没什么 必 
机 

大。o 





15.3.3 ”流水 策略 


如 果 有 一 些 服务 器 比 其 他 服务 器 更 强大 ， 我 们 可 能 会 希望 让 这 些 强 大 的 
服务 器 处 理 更 多 的 负载 。 比 如 说 ， 假 如 有 一 个 使 用 SSD 的 分 片 能 够 处 理 
10 倍 于 其 他 机 器 《使 用 转 式 磁盘 ) 的 负载 。 羊 运 的 是 ， 我 们 有 10 个 其 他 
分 片 。 可 强制 将 所 有 新 数据 插入 到 SSD， 然 后 让 均衡 器 将 旧 的 块 移动 到 
其 他 分 片上 。 这 样 能 够 提供 比 转 式 磁盘 更 低 的 延迟 。 


为 实现 这 种 策略 ， 需 将 最 大 范围 的 块 分 布 在 SSD 上 。 首 先 ， 为 SSD 指 定 


> sh.addSshardTag("shard-name", "ssd") 


将 升序 键 的 当前 值 一 直到 正 无 穷 范围 的 块 指定 分 布 在 $SSD 分 片上 ， 以 便 
后 续 的 写 入 请 求 均 被 分 发 到 SSD 分 片上 : 


> sh.addTagRange("<i>dbName.collName</i>", {"_id" : ObjectId()}, 
... {"_id" : MaxKey}, "ssd") 


现在 ， 所 有 的 插入 请 求 均 会 被 路 由 到 这 个 块 上 ， 这 个 块 始终 位 于 标签 
为 ssd 的 分 片上 。 


但 是 ， 除 非 修改 标签 范围 ， 否 则 从 升序 键 的 当前 值 一 直到 正 无 穷 的 这 个 
0 
范围 ， 如 下 : 


> use config 

> Var tag = db.tags.findone({"ns" : "<i>dbName.collName</i>", 
.. "max" : {"<i>shardKey</i>" : MaxKey}}) 

> tag.min.<i>shardKey</i> = ObjectId() 

> db.tags.save(ltag) 


这 样 ， 前 一 天 的 块 束 可 以 被 移动 到 其 他 分 片上 了 。 


此 策略 的 另 一 弊端 是 需 做 一 些 修改 才能 进行 扩展 。 如 果 写 请 求 超出 了 
SSD 的 处 理 能 力 ， 想 要 将 负载 均衡 地 分 布 到 当前 服务 器 和 另 一 台 服 务 器 
并 不 简单 。 

如 果 没 有 高 性 能 服务 器 来 处 理 插 入 流水 ， 或 者 是 没有 使 用 标签 ， 那 么 不 
要 将 升序 键 用 作 片 键 。 否 则 ， 所 有 写 请 求 都 会 被 路 由 到 同一 分 片上 。 
15.3.4 多 热点 


单个 mongod 服 务 占 在 处 理 升 序 写 请 求 时 是 最 有 效 的。 这 种 技术 与 分 片 
相 冲 突 ， 写 请 求 分 布 在 集群 中 时 ， 分 片 是 最 局 效 的 。 这 种 技术 会 创建 多 
个 热点 (最 好 在 每 个 分 片 郡 创建 几 个 热点 ) ， 写 请 求 于 是 会 均衡 地 分 布 
在 集群 内 ， 而 在 单个 分 片上 则 是 以 升序 分 布 的 。 


为 实现 这 种 方式 ， 需 使 用 复合 片 键 〈compound shard key) 。 复 合 片 键 
中 的 第 一 个 值 只 是 比较 粗略 的 随机 值 ， 势 也 比较 低 。 可 将 片 键 第 一 部 分 











中 的 每 个 值 想象 为 一 个 块 ， 如 图 15-6 所 示 。 随 着 插入 数据 的 增多 ， 这 种 
现象 也 会 随 之 出 现 ， 虽 然 可 能 不 会 被 分 离 得 这 么 整洁 (注意 图 中 的 
$minKey 行 )。 但 是 ， 如 果 插 入 足够 多 的 数据 ， 最 终 会 发 现 基 本 上 每 个 
随机 值 都 位 于 一 个 块 中 。 如 果 继 续 插 入 数据 ， 最 终 同一 个 随机 值 则 会 对 
应 有 多 个 块 ， 这 时 候 就 轮 到 瞩 键 中 的 第 二 部 分 出 马 了 。 














图 15-6 块 的 一 个 子 集 。 每 个 块 都 包含 一 个 状态 和 一 个 _id 范 围 
片 键 的 第 二 部 分 是 个 升序 键 。 也 就 是 说 ， 在 一 个 块 内 ， 值 总 是 增加 的 ， 


如 图 15-7 中 的 文档 样 例 所 示 。 因 此 ， 如 果 每 个 分 片 拥有 一 个 块 ， 会 是 非 
常 完美 的 配置 ， 写 请 求 在 每 个 分 片 内 都 是 升序 的 ， 如 图 15-8 所 示 。 当 
然 ， 在 多 个 分 片 中 拥有 多 个 块 ， 每 个 块 拥 有 多 个 热点 ， 这 种 方式 并 不 易 
于 扩展 : 添加 一 个 新 的 分 片 不 会 获得 任何 写 请 求 ， 因 为 这 个 分 片上 没有 
热点 块 。 因 此 ， 我 们 会 希望 在 每 个 分 片上 拥有 几 个 热点 块 ( 以 提供 增长 
空间 ) 。 然 后 ， 热 点 块 不 能 过 多 。 少 数 的 热点 块 能 够 保持 升序 写 请 求 的 
效率 。 但 是 ， 在 一 个 分 片上 拥有 1000 个 “热点 ”的 话 ， 其 实 写 请 求 就 相当 
于 是 完全 随机 的 了 。 





图 15-7: 插入 文档 的 一 个 样 例 。 注 意 ， 所 有 的 _id 都 是 升序 的 


fstate :CA "_id": $minKey} -> 
fstate : "CO" "_id" : $minKey} 


{"state" : "CA""_id": Objectld("511bfb9e17d55c62b2371f1f")} 


{ state : "CA", "_id" : Objectld("S11bfb9e17d55c62b2371f24")} 


{"state" : "CA","_id" : Objectld("511bfb9e17d55c62b2371f25")} 


fstate : "MA', "_id" : SminKey} -> 
fstate" : "ME", "_id": $minKey} 


fstate MA， id : Objectld("511bfb9e17d55c62b2371f1d")} 


f State : MA， id :0bjectld( 511bf 旬 9e17d55c62b2371f21 ) } 


fsState MA，_id ; Objectld("S11bfb9e17d55c62b2371f22") } 


{"'state" : "NY", "_id": $minKey} -> 
{"'state" : "OH", "_id" : $minKey} 


"NY", "_id": Objectld("511bfb9e17d55c62b2371f1e")} 


{"state" ; "NY", "_id": Objectld("S11bfb9e17d55c62b2371f20")} 


{"state™ : "NY®, "_id": Objectld("511bfb9e17d55c62b2371f23")} 





图 15-8 ”插入 的 文档 被 拆 分 成 了 多 个 块 。 注 意 ， 在 每 个 块 内 ，_id 都 是 
升序 的 


可 将 这 种 配置 想象 成 每 个 块 都 是 一 个 升序 文档 的 栈 。 每 个 分 片上 拥有 多 
个 栈 ， 每 个 栈 都 是 不 断 增长 的 ， 直 到 块 被 拆 分 。 一 旦 块 被 拆 分 ， 只 有 一 
个 新 块 会 成 为 热点 块 ， 其 他 块 实际 上 会 处 于 一 种 “ 死 挥 ”的 状态 ， 且 不 会 
再 继续 增长 。 如 条 这 些 栈 均衡 地 分 发 在 分 片 中 ， 那 么 写 请 求 也 会 被 均衡 


地 分 发 到 不 同 的 分 片上 。 
15.4 厂 键 规则 和 指导 方针 
在 选择 片 键 前 ， 应 注意 一 些 实际 限制 。 


由 于 与 创建 索引 键 的 概念 类 似 ， 因 此 决定 使 用 哪个 键 作 分 片 以 及 创建 片 
键 的 方法 都 与 之 非常 相似 。 事 实 上 ， 我 们 使 用 的 厂 键 可 能 常常 就 是 使 用 
最 频 楷 的 索引 《或 者 是 索引 的 变种 ) 。 


15.4.1 片 键 限制 


片 键 不 可 以 是 数组 。 在 拥有 效 组 值 的 键 上 执行 sh.shardcollection()， 
则 命令 不 会 生效 。 向 厂 键 插入 数组 值 也 是 不 被 允许 的 。 


文档 一 旦 插入 ， 其 卢 键 值 就 无 法 修改 了 。 要 修改 文档 的 片 键 值 ， 必 须 先 
删除 文档 ， 修 改 片 键 的 值 ， 然 后 重新 插入 。 因 此 ， 应 选择 不 会 被 改变 的 
字段 ， 或 者 是 很 少 发 生 改 变 的 字段 。 


大 多 特殊 类 型 的 索引 都 不 能 被 用 作 片 键 。 特 别 是 不 能 在 地 理 空 间 索 引 上 
进行 分 片 。 如 前 所 述 ， 使 用 散 列 索引 作为 片 键 是 可 以 的 。 


15.4.2 片 键 的 势 


不 管 片 键 是 跳跃 增长 还 是 稳定 增长 ， 选 择 一 个 值 会 发 生变 化 的 键 是 非常 
重要 的 。 与 索引 一 样 ， 分 片 在 势 比 较 高 的 字段 上 性 能 更 佳 。 例 

如 ，"logLevel" 键 只 拥有 "DEBUG"、"WARN" 和 "ERROR" 这 几 个 值 。 如 用 其 
作为 片 键 ， 则 MongoDB 最 多 只 能 将 数据 分 为 三 个 块 〈 因 为 片 键 只 拥有 

三 个 不 同 的 值 )。 如 果 键 拥有 的 值 比较 少 ， 而 且 确 实 希 望 将 这 个 键 用 作 
片 键 ， 则 可 使 用 该 键 与 另 一 个 拥有 多 样 值 的 键 创 建 一 个 复合 卢 键 ， 比 

如 "1LogLeve1L" 和 "timestamp"。 注意 ， 复合 片 键 的 势 比较 高 。 


15.5 ”控制 数据 分 发 
有 时 候 ， 自 动 数据 分 发 无 法 满足 需求 。 前 面 已 经 学 习 过 了 有 关 选 择 片 键 


以 及 让 MongoDB 上 自动 处 理事 务 的 内 容 ， 接 下 来 我 们 将 在 本 市 学 习 到 更 
多 相关 内 容 。 























随 看 集群 变 得 越 来 越 大 或 者 越 来 越 繁 忙 ， 这 些 解 决 方 条 可 能 会 变 得 不 是 
0 
Xo 


15.5.1 对 多 个 数据 库 和 集合 使 用 一 个 集群 


MongoDB 将 集合 均衡 地 分 发 到 集群 中 的 分 片上 ， 如 果 保 存 的 数据 比较 
均匀 ， 则 该 方法 非常 有 效 。 然 而 ， 如 果 有 一 个 日 志 集 合 ， 该 集合 的 数据 
不 如 其 他 集合 的 数据 有 “价值 ”， 我 们 可 能 不 希望 其 占用 昂贵 的 服务 器 。 
或 者 ， 如 果 拥 有 一 个 强大 的 分 厂 ， 我 们 可 能 只 希望 将 其 用 在 实时 集合 
上 ， 而 不 允许 其 他 集合 使 用 它 。 这 些 情况 下 ， 可 建立 独立 的 集群 ， 也 可 
将 数据 的 保存 位 置 明 确 指 定 给 MongoDB。 


为 实现 这 种 模式 ， 在 shell 中 运行 sh.addshardTag() 辅 助 函数 : 











> sh.addshardTag("shard0000", "high") 
> // shard0001 - no tag 

> // shard0002 - no tag 

> // shard0003 - no tag 

> sh.addSshardTag("shard0004", "low") 
> sh.addSshardTag("shard0005", "low") 


然后 可 以 将 不 同 的 集合 指定 到 不 同 的 分 片 。 例 如 ， 对 于 实时 集合 : 


> sh.addTagRange("super.important", {"shardKey" : Minkey}, 
... {"shardKey" : MaxKkey}, "high") 





上 面 这 条 命令 的 意思 古 ,，“ 将 该 集合 内 片 键 的 值 在 负 无 穷 到 正 无 穷 之 间 
的 数据 ， 保 存 到 标签 为 high 的 分 片上 ”。 也 就 是 说 ， 该 重要 集合 的 所 有 
数据 都 不 会 被 保存 在 其 他 服务 器 上 。 注 意 ， 这 并 不 会 影响 其 他 集合 的 分 
发 方式 : 其 他 集合 仍 会 被 均衡 地 分 发 在 该 分 片 和 其 他 分 睫 上 。 


同样 地 ， 也 可 以 将 日 志 集 合 指定 到 比较 便宜 的 服务 器 上 : 


> sh.addTagRange("some.1logs", {"shardkKey" : Minkey}, 
... {"shardKey" : MaxKey}, "low") 





现在 ， 日 志 集 合 会 被 均衡 地 分 发 在 shard0004 和 shard0005 上 。 


为 集合 指定 一 个 标签 范围 的 指令 并 不 会 立即 生效 。 它 只 是 一 个 对 于 均衡 


器 的 指令 ， 运 行 指令 可 将 集合 移动 到 这 些 目 标 分 片上 。 因 此 ， 如 果 整 个 
日 志 集 合 都 位 于 shard0002 或 者 是 均衡 地 分 发 在 所 有 分 片上 ， 那 么 需要 消 
耗 一 定 的 时 间 ， 日 志 集 合 的 所 有 块 才 会 被 迁移 到 Shard0004 和 shard0005 
四 本 





再 举 一 个 例子 。 也 许 有 这 样 一 个 集合 ， 我 们 希望 其 出 现在 除 标签 为 high 
的 分 片 以 外 的 任何 分 片上 。 可 为 所 有 的 非 高 性 能 分 片 添加 一 个 新 的 标 
签 ， 创 建 一 个 新 分 组 。 分 片 可 创建 的 标签 多 少 没 有 限制 : 


> sh.addShardTag("shard0001"， "whatever") 
> sh.addShardTag("shard0002"， "whatever") 
> sh.addShardTag("shard0003"， "whatever") 
> sh.addShardTag("shard0004"， "whatever") 
> sh.addShardTag("shard0005"， "whatever") 


现在 ， 可 指定 该 集合 (名 为 normal.co11) 分 发 在 这 五 个 分 片上 : 


> sh.addTagRange("normal.coll1", {"shardkey" : Minkey}, 
.. {"shardKey" : MaxKey}, "whatever") 


不 能 动态 地 指定 集合 ， 如 “ 当 新 集合 创建 时 ， 将 其 随机 分 发 到 一 个 分 片 
上 ”。 但是， 可 使 用 定时 任务 来 做 这 些 事情 。 


如 果 操 作 失 误 或 是 改变 了 主意 ， 可 使 用 "sh.removeShardTab()" 删 除 分 片 
的 标签 : 


> sh.removeShardTag("shard0005", "whatever") 


如 果 删 除了 某 个 标签 范围 的 所 有 标签 (例如 ， 删 除了 标签 为 high 的 分 片 
标签 ) ， 均 衡器 不 会 再 将 数据 分 发 到 任何 地 方 ， 因 为 没有 可 用 的 位 置 。 
1 读 可 写 ， 但 不 会 被 迁移 到 其 他 位 置 ， 除 非 修 改 标签 或 者 标 


不 存在 用 于 删除 标签 范围 的 辅助 函数 ， 但 可 手动 市 除 。 手 动 处 理 标 签 范 

围 ， 可 通过 mongos 访 问 config.tags 命 名 空间 。 类 似 地 ， 分 片 的 标签 信 

恩 保 存在 分 片 文档 "tags" 字 段 下 的 config.shards 命 名 空间 。 如 分 片 文 档 
中 没有 "tags" 字 段 ， 则 该 分 片 束 不 存在 标签 。 


15.5.2 ”手动 分 片 








有 时 候 ， 对 于 复杂 的 需求 或 是 特殊 的 情况 ， 我 们 可 能 希望 对 集群 的 数据 
分 发 拥有 绝对 控制 权 。 如 果 不 希 望 数 据 被 自动 分 发 ， 可 关闭 均衡 器 ， 使 
用 movechunk 命 令 手 动 对 数据 进行 迁移 。 


要 关闭 均衡 器 ， 可 连接 到 一 个 mongos (任何 mongos 都 可 以 ，， 然 后 使 
用 以 下 命令 更 新 config.settings 命 名 空间 : 
> db.settings.update({"_id" : "balancer"}, {"enabled" : false}, true) 


注意 ， 这 是 一 个 upsert 操 作 : 如 果 均 衡 右 设置 不 存在 ， 则 会 目 动 创建 一 


A 








如 正在 进行 迁移 ， 则 该 设置 要 等 到 当前 迁移 完成 之 后 才 会 生效 。 然 而 ， 
一 旦 当前 迁移 完成 了 ， 均 衡器 束 不 会 再 做 数据 移动 了 。 


只 要 均衡 器 被 关闭 ， 就 可 以 手动 做 数据 迁移 了 (如 有 必要 的 话 ) 。 首 
先 ， 碍 看 config.chunks 找 出 每 个 块 的 分 发 位 置 : 


> db.chunks.find() 


现在 ， 使 用 movechunk 命 令 将 块 迁 移 到 其 他 分 片 。 指 定 需 被 迁移 块 的 下 
边界 值 和 目标 分 片 的 名 称 : 
> sh.moveChunk("test.manual.stuff" 


.. {user_id: NumberLong("-1844674407370955160")}, "test-rs1i") 
{ "millis" : 4079, "ok" : 1 } 





然而 ， 除 非 遇 到 特殊 情况 ， 否 则 都 应 使 用 MongoDB 的 目 动 分 片 ， 而 非 
手动 进行 分 片 。 如 果 最 后 得 到 一 个 拥有 一 个 热点 的 分 片 ( 这 并 非 是 我 们 
所 期 望 的 ) ， 那 么 大 部 分 数据 可 能 都 将 出 现在 这 个 分 片上 。 


尤其 不 要 在 均衡 器 开局 的 情况 下 手动 做 一 些 不 寻常 的 分 友 。 如 果 均 衡器 
检测 到 一 些 不 均衡 的 块 ， 则 会 对 调整 过 的 数据 进行 重新 分 发 ， 以 便 让 集 
合 再 次 处 于 均衡 状态 。 如 宋 和 希望 得 到 非 均 衡 的 数据 块 分 发 ， 应 使 用 上 一 
小 节 介 绍 过 的 分 片 标签 技术 。 





第 16 章 ”分 睫 管 理 


对 数据 库 管理 员 来 说 ， 分 片 集群 是 最 困难 的 部 署 类 型 。 本 章 我 们 将 学 习 
在 集群 上 执行 管理 任务 的 方方面面 ， 内 容 包括 : 


”检查 集 税 居 态 ， 集 格 有 哪些 成 员 ? 数据 保存 在 哪里 ”哪些 过 接 是 打 
开 的 ? 

。 如 何 添加 、 删 除 和 修改 集群 的 成 员 ; 

。 管 理 数据 移动 和 手动 移动 数据 。 


16.1 检查 集群 状态 


Rs 
行 的 操作 。 


16.1.1 使 用 sh.status 查 看 集群 摘要 信息 


使 用 sh.status() 可 得 看 分 片 、 数 据 库 和 分 片 集合 的 摘要 信息 。 如 宁 块 
的 数量 较 少 ， 则 该 命令 会 打印 出 每 个 块 的 保存 位 置 。 人 否则 它 只 会 简单 地 
给 出 集合 的 片 键 ， 以 及 每 个 分 片 的 块 数 : 


> sh.status() 
- Sharding Status --- 


sharding version: { "_id" : 1, "version" ; 3 } 
shards: 
{ "_id" : "shard0000"， "host" :; "lJlocalhost:30000", 
"tags" : [ "USPS" 和 "Apple" ] } 
{ "_id" : "shard0001", "host" : "localhost:30001" } 
{ "_id" : "shard0002", "host" : "localhost:30002", "tags" : [ "Apple" ] } 
databases : 
{ "_id" : "admin", "partitioned" : false, "primary" : "config" } 
{ "_id" : "test", "partitioned" : true, "primary" : "shard0001" } 
test.foo 
Shard key: { "x" : 1, "y" :13} 
chunks: 
Shard0000 4 
Shard0002 4 
Shard0001 4 
{ "x" : { $minkey : 1 }, "y" : { $minkey : 1 } } -->> 
{ "x" :; 0, "y" : 10000 } on : shard0000 
{ "x" : 0O, "y" : 10000 } -->> { "x" ; 12208, "y" : -2208 } 
on : Shard0002 
{ "x" : 12208, "y" : -2208 } -->> { "x" : 24123，"y"”: -14123 } 
on : Shard0000 
{ "x" ; 24123, "y" : -14123 } -->> { "x" : 39467, "y" : -29467 } 


on : Shard0002 


{ "X"”: 39467, "y" : -29467 } -->>{ "x" : 51382, "y" : -41382 } 
on : Shard0000 
{ "x" : 51382, "y" : -41382 } -->>{ "x" : 64897, "y" : -54897 } 
on : Shard0002 
{ "x" : 64897, "y" : -54897 } -->>{ "x" : 76812, "y" : -66812 } 
on : Shard0000 
{ "x" : 76812, "y" : -66812 } -->> { "x" : 92793, "y" : -82793 } 
on : Shard0002 
{ "x" : 92793, "y" : -82793 } -->> { "x" :; 119599, "y" : -109599 } 
on : Shard0001 
{ "x" : 119599, "y" : -109599 } -->> { "x" : 147099, "y" : -137099 } 
on : Shard0001 
{ "x" : 147099, "y" : -137099 } -->> { "x" : 173932, "y" : -163932 } 
on : Shard0001 
{ "x" : 173932, "y" : -163932 } -->> 
{ "x" : { $maxkey : 1 }, "y" : { $maxKkey : 1 } } on : shard0001 
test.ips 
shard key: { "ip" :; 1 } 
chunks : 
Shard0000 2 
Shard0002 3 
Shard0001 3 
{ "ip"”:({$minkey : 1 }} -->> { "ip"”: "002.075.101.096" } 
on : Shard0000 
{ "ip" : "002.075.101.096" } -->> { "ip" : "022.089.076.022" } 
on : Shard0002 
{ "ip" : "022.089.076.022" } -->> { "ip" : "038.041.058.074" } 
on : Shard0002 
{ "ip" : "038.041.058.074" } -->> { "ip" : "055.081.104.118" } 
on : Shard0002 
{ "ip" : "055.081.104.118" } -->> { "ip" : "072.034.009.012" } 
on : Shard0000 
{ "ip" : "072.034.009.012" } -->> { "ip" : "090.118.120.031" } 
on : Shard0001 
{ "ip" : "090.118.120.031" } -->> { "ip" : "127.126.116.125" } 
on : Shard0001 
{ "ip"”: "127.126.116.125" } -->> { "ip"”:({$maxkey : 1 } } 
on : Shard0001 
tag: Apple { "ip" . "017.000.000.000" } -- 
>> { "ip" : "018.000.000.000" } 
tag: USPS { "ip" : "056.000.000.000" } -->> { "ip" : "057.000.000.000" } 
{ "_id" : "test2", "partitioned" : false, "primary" : "shard0002" } 


块 的 数量 较 多 时 ，sh. status() 命 令 会 概述 块 的 状态 ， 而 非 打 印 出 每 个 
块 的 相关 信息 。 如 需 查看 所 有 的 块 ， 可 使 用 sh. status(true) 命 令 (true 
参数 要 求 sh.status() 命 令 打印 出 尽 可 能 详尽 的 信息 〉。 


sh.status() 显 示 的 所 有 信息 都 来 自 config 数 据 库 。 


运行 sh ,status() 命 令 ， 使 MapReduce 获 取 这 一 数据 ， 因 此 ， 
据 库 时 指定 了 - -noscripting 选 项 ， 则 无 法 运行 sh.status() 命 


16.1.2 检查 配置 信息 


集群 相关 的 所 有 配置 信息 都 保存 在 配置 服务 器 上 config 数 据 库 的 集合 
中 。 可 直接 访问 该 数据 库 ， 不 过 shell 提 供 了 一 些 辅助 函数 ， 并 通过 这 些 
男 数 获 取 更 适 于 阅读 的 信息 。 不 过 ， 可 始终 通过 直接 碍 询 config 数 据 库 
的 方式 ， 获 取 集 群 的 元 数据 。 


-全 以 防 配 置 服务 器 数据 
被 不 小 心 修改 或 删除 。 应 先 连接 到 mongos， 然 后 通过 config 数 据 库 
来 查询 相关 信息 ， 方 法 与 查询 其 他 数据 库 一 样 : 


mongos> use config 





如 果 通 过 mongos 操 作 配 置 数 据 (而 不 是 直接 连接 到 配置 服务 嚣 〉， 
mongos 会 保证 将 修改 同步 到 所 有 配置 服务 器 ， 也 会 防止 危险 操作 的 
发 生 ， 如 意外 删除 config 数 据 库 等 。 


忌 的 来 说 ， 不 应 下 接 修 改 config 数 据 库 的 任何 数据 (例外 情况 下 面 会 提 
0 通 第 需要 重启 所 有 的 mongos 服 务 履 ， 
能 看 到 效果 。 


config 数 据 库 中 有 一 些 集合 ， 本 市 将 介绍 这 些 集 合 的 内 容 和 使 用 方法 。 











1. config.shards 





shards 集 合 跟 踪 记 录 和 集群 内 所 有 分 片 的 信息 。shards 集 合 中 的 一 个 典型 文 
档 结 构 如 下 : 


> db.shards.findone() 





mh id" i "spock", 
"host" : "spock/server-1:27017,server-2:27017,server-3:27017", 
"tags" :; [ 


分 片 的 "_id" 来 自 于 副本 集 的 名 称 ， 所 以 集群 中 的 每 个 副本 集 名 称 都 必 


须 是 唯一 的 。 


更 新 副本 集 配 置 的 时 候 《“ 比 如 添加 或 删除 成 员 ) ，host 字 段 会 目 动 更 


新 。 
2. onfig.databases 


a 不 管 数据 库 有 没有 被 
分 片 ; 


> db. Se 


{ "_id" : "admin", "partitioned" : false, "primary" : "config" } 
{ 和 : "test1", "partitioned" : true, "primary" : "spock" } 
CC : "test2", "partitioned" : false, "primary" : "bones" } 


如 果 在 数据 库 上 执行 过 enablesharding， 则 此 处 的 "partitioned" 字 段 值 
束 是 true。"primary" 是 “ 主 数 据 库 ”(home base) 。 数 据 库 的 所 有 新 集 
合 均 默认 被 创建 在 数据 库 的 主 分 片上 。 


3. config.collections 


collections 集 合 跟 踪 记 录 所 有 分 片 集合 的 信息 〈 非 分 片 集合 信息 
外 ) 。 其 中 的 文档 结构 如 下 : 


> db.collections.findone() 





"_id" : "test.foo", 

"lastmod" : ISODate("1970-01-16T17:53:52.934Z" )， 
"dropped" : false, 

"key" : { xn ' 1, "y" ' 1 }, 

"unique" : true 


下 面 是 一 些 重 要 字段 。 


e _id 
集合 的 命名 空间 。 
© key 


片 键 。 本 例 中 指 由 x 和 y 组 成 的 复合 片 键 。 


e unique 
表明 所 键 是 一 个 唯一 索引 。 该 字段 只 有 当 值 为 true 时 才 会 出 现 〈 表 
明 睫 键 是 唯一 的 ) 。 睫 键 默认 不 是 唯一 的 。 


4. config.chunks 


chunks 集 合 记 录 有 集合 中 所 有 块 的 信息 。chunks 集 合 中 的 一 个 典型 文档 
结构 如 下 所 示 : 





t 
"_id" : "test.hashy-user_id -1034308116544453153", 
"1astmod"”: { "t" : 5000, "i" :; 50 }, 
"lastmodEpoch" : ObjectId("50f5c648866900ccb6ed7c88" )， 
"ns™" : "test.hashy", 
"min" : { "user_id" : NumberLong("-1034308116544453153") }, 
"max" : { "user_id" : NumberLong("-732765964052501510") }, 
"shard" : "test-rs2" 

} 

二 f= » 

下 和 面 这 些 字段 最 为 有 用 。 


_id 
We 该 标识 符 通 常 由 命名 空间 、 厂 键 和 块 的 下 边界 值 
组 成 。 


ns 
块 所 属 的 集合 名 称 。 


© min 


块 范围 的 最 小 值 《包含 ) 。 


@ max 


块 范围 的 最 大 值 〈 不 包含 ) 。 


ee Shard 


块 所 属 的 分 片 。 


这 里 的 lastmod 和 1astmodEpoch 人 字段 用 于 记录 块 的 版 本 。 例 如 ， 如 一 个 名 
为 foo.bar-_id-1 的 块 被 拆 分 为 两 个 块 ， 原 本 的 foo.bar-_id-1 会 成 为 一 
个 较 小 的 新 块 ， 我 们 需要 一 种 方式 来 区 别 该 块 与 之 前 的 块 。 因 此 ， 我 们 





用 t 和 i 字 段 表示 块 的 主 〈major) 版 本 和 副 (minor) 版 本 : 主 版 本 会 在 
块 被 迁移 至 新 的 分 片 时 发 生 改 变 ， 副 版 本 会 在 块 被 拆 分 时 发 生 改 变 。 


sh.status() 获 取 的 大 部 分 信息 都 来 目 于 config.chunks 集 合 。 





5. config.changelog 


changelog 集 合 可 用 于 跟踪 记录 集群 的 操作 ， 因 为 该 集合 会 记录 所 有 的 拆 
分 和 迁移 操作 。 


拆 分 记录 的 文档 结构 如 下 : 





{ 
"_id" :; "router1-2013-02-09T18:08:12-5116908cab10a03bocd748c3"， 
"server" : "spock-01", 
"clientAddr" :; "10.3.1.71:62813", 
"time" :; ISODate("2013-02-09T18:08:12.5742Z"), 
"what” : "split", 
"ns"”: "test.foo", 
"details" : { 
"before" : { 
"min™” :; { "x" : { $minKkey : 1 }, "y" : { $minkey : } 3}, 
"max™" :; { "x" : { $maxkey : 1 }, "y" : { $maxKkey : 1 } }, 
"lastmod" : Timestamp(1000, 0), 
"lastmodEpoch" : ObjectId("000000000000000000000000") 
}, 
"left" : { 
"min™” :; { "x" : { $minkey : 1 }, "y" : { $minkey : 1 } }, 
"max™” :; { "x" : 0, "y" : 10000 }, 
"lastmod" : Timestamp(1000, 1), 
"JastmodEpoch" : ObjectId("000000000000000000000000") 
}, 
"right"” : { 
"min™" : "x" ; 0, "y" : 10000 }, 
"max™" : { "x" : { $maxkey : 1 }, "y" : { $maxkey : 1 } }, 
"lastmod" : Timestamp(1000, 2), 
"lastmodEpoch" : ObjectId("000000000000000000000000") 
} 
} 
} 


从 details 字 段 中 可 以 看 到 文档 在 拆 分 前 和 拆 分 后 的 内 容 。 


这 里 显示 的 是 集合 第 一 个 块 被 拆 分 后 的 情景 。 注 意 ， 每 个 新 块 的 副 版 本 
都 发 生 了 增长 : 新 块 的 lastmod 分 别 是 Timestamp(1000，1) 和 


Timestamp(1000, 2). 


数据 迁移 的 操作 比较 复杂 ， 每 次 迁移 实际 上 会 创建 4 个 独立 的 changelog 


文档 : 一 条 是 迁移 开始 时 的 状态 ， 一 条 是 from 分 片 的 文档 ， 一 条 是 to 分 
片 的 文 要 ， 还 有 一 条 是 迁移 完成 时 的 状态 。 中 间 的 两 个 文档 比较 有 参考 
价值 ， 因 为 可 从 中 看 出 每 一 步 操作 耗 时 多 久 。 这 样 就 可 得 知 ， 造 成 迁移 
瓶颈 的 到 底 是 磁盘 、 网 络 还 是 其 他 什么 原因 了 。 


例如 ，from 分 片 的 文档 结构 如 下 : 





{ 


"_id" :; "router1-2013-02-09T18:15:14-5116923271b903e42184211c"， 
"server" : "spock-01", 
"clientAddr™" :; "10.3.1.71:27017", 
"time" :; ISODate("2013-02-09T18:15:14.3882Z"), 
"what" : "moveChunk.to", 
"ns" :; "test.foo", 
"details" : { 
"min” :; { "x" : 24123, "y" : -14123 }, 
"max™" : { "x" : 39467, "y" : -29467 }, 
"Step1 of 5" :; 0, 
"step2 of 5" ; 0， 
"step3 of 5" :; 900, 
"step4 of 5" ; 0， 
"step5 of 5" : 142 
} 
}; 





details 字 段 中 的 每 一 步 表 示 的 都 是 时 间 ，stepN of 5 信息 以 毫秒 为 单 
位 ， 显 示 了 步骤 的 耗 时 长 短 。 当 from 分 片 收 到 mongos 发 来 的 movechunk 命 


今 时 ， 它 会 : 


1. 检查 命令 的 参数 ; 

2.， 问 配置 服务 右 申 请 获得 一 个 分 布 锁 ， 以 便 进 入 迁移 过 程 ; 
3. 尝试 连接 到 to 分 片 ; 

4. 数据 复制 ， 这 是 整个 过 程 的 “临界 区 ” (critical section); 
5. 与 to 分 片 和 配置 服务 右 一 起 确认 迁移 是 否 成 功 完 成 。 


注意 ，step4 of 5 中 的 to 和 from 分 片 间 进 行 的 是 直接 通信 : 每 个 分 片 都 
古 直 接连 接 到 为 一 个 分 片 和 配置 服务 器 上 ， 以 进行 迁移 。 如 果 from 分 厂 
在 迁移 过 程 的 最 后 一 步 出 现 短暂 的 网 络 连接 问题 ， 它 可 能 会 处 于 无 法 撤 
销 迁 移 操作 也 无 法 继续 进行 下 去 的 状态 。 在 这 种 情况 下 ，mongod 会 天 
闭 。 


to 分 片 的 changloe 文 档 与 from 分 片 类 似 ， 但 步骤 有 些许 不 同 : 








"_id" :; "router1-2013-02-09T18:15:14-51169232ab10a03b0cd748e5"， 
"server" : "spock-01", 
"clientAddr" :; "10.3.1.71:62813", 
"time" :; ISODate("2013-02-09T18:15:14.3912Z"), 
"what" : "moveChunk.from", 
"ns" : "test.foo", 
"details" : { 
"min"” :; { "x" : 24123, "y" : -14123 }, 
"max"” : { "x" : 39467, "y" : -29467 }, 


"Step1 of 6" : 0, 
"step2 of 6" : 2, 
"step3 of 6" : 33, 
"step4 of 6" : 1032, 
"step5 of 6" : 12, 
"step6 of 6" : 0 


当 to 分 片 收 到 from 分 片 发 来 的 命令 时 ， 它 会 执行 如 下 操作 。 


@J) UI 上 W 


. 迁移 索引 。 如 果 该 分 片 不 包含 任何 来 自 迁 移 集 合 的 块 ， 则 需 知 道 有 





哪些 字段 上 建立 过 索引 。 如 果 在 此 之 前 to 分 片 已 有 来 自 于 该 集合 的 
块 ， 则 可 忽略 此 步骤 。 


. 删除 块 范 围 内 已 存在 的 任何 数据 。 之 前 失败 的 迁移 〈 如 果 有 的 话 ) 





可 能 会 留 有 数据 残余 ， 或 者 是 正 处 于 恢复 过 程 当中 ， 此 时 我 们 不 希 
望 残留 数据 与 新 数据 混杂 在 一 起 。 


. 将 块 中 的 所 有 文档 复制 到 to 分 片 。 

. 复制 期 间 ， 在 to 分 片上 重新 执行 曾 在 这 些 文档 上 执行 过 的 操作 。 

. 等待 to 分 片 将 新 迁移 过 来 的 数据 复制 到 集群 的 大 多 数 服 务 器 上 。 
| 


6. config.tags 


该 集合 的 创建 是 在 为 系统 配置 分 片 标签 时 发 生 的。 每 个 标签 都 与 一 个 块 


范围 相关 联 : 
> db.tags.find() 
_id" : 
"ns" ; "test 
min" 9 {"ip 
}, 
"ns" :; "test.ips 
min" & {"ip" 


.ips", 
" :; "056.000.000.000"} 


I 
a 


"056.000.000.000"}, 


"max” : {"ip" : "057.000.000.000"}, 


"tag" 9 "USPS" 
} 
{ 
mh _id" 9 { 
mnsn : "test.ips", 
"min” : {"ip" : "017.000.000.000"} 
}, 
"ns™" : "test.ips", 
"min" : {"ip" : "017.000.000.000"}, 
"max" : {"ip" : "018.000.000.000"}, 
"tag" "Apple" 
} 


7. config.settings 

该 集合 含有 当前 的 均衡 器 设置 和 块 大 小 的 文档 信息 。 通 过 修改 该 集合 的 
文档， 可 开局 或 关闭 均衡 右 ， 也 可 以 修改 块 的 大 小 。 注 意 ， 应 总 是 连接 
到 mongos 修 改 该 集合 的 值 ， 而 不 应 直接 连接 到 配置 服务 右 进 行 修改 。 
16.2 ”查看 网 络 连接 


集群 的 各 组 成 部 分 人 i 学 习 与 分 片 相关 的 连 
接 信息 。 网 络 信息 会 甘 第 23 音 详细 介 


16.2.1 查看 连接 统计 


可 使 用 connPoolstats 命 令 ， 碍 看 mongos 和 mongod 之 间 的 连接 信息 ， 并 
可 得 知 服务 器 上 打开 的 所 有 连接 : 


> db.adminCommand({"connPoolStats" : 1}) 











"createdByType": { 
"sync": 857, 
"set":; 4 


}, 
"numDBClientConnection": 35, 
"numAScopedConnection": 0, 
"hosts": { 
"config-01:10005,config-02:10005,config-03:10005": { 
"created": 857, 
"available": 2 


}, 

"spock/spock-01:10005, spock-02:10005, spock-03:10005": { 
"created": 4, 
"available": 1 


} 


}, 
"totalAvailable": 3, 
"totalCreated": 861, 


"ok": 1 
} 


形 如 "host1，host2，host3" 的 主机 名 是 来 自 配 置 服 务 器 的 连接 ， 也 就 是 
用 于 “同步 * 的 连接 。 形 如 "name/host1， host2,...,hostN" 的 主机 是 来 自 
ee available 的 值 表明 当前 实例 的 连接 池 中 有 多 少 可 用 连 


注意 ， 只 有 在 分 片 内 的 mongos 和 mongod 上 运行 这 个 命令 才 会 有 效 。 


在 一 个 分 片上 执行 connPoolstats， 输 出 信息 中 可 看 到 该 分 片 与 其 他 分 
片 间 的 连接 ， 包 括 连 接 到 其 他 分 片 做 数据 迁移 的 连接 。 分 片 的 主 连接 会 
直接 连接 到 另 一 分 片 的 主 连接 上 ， 然 后 从 目标 分 片 吸取 数 据 。 


进行 迁移 时 ， 分 片 会 建立 一 个 ReplicasetMonitor 〈 访 进程 用 于 监控 副本 
集 的 健康 状况 ) ， 用 于 奶 踪 记录 迁移 男 一 端 分 片 的 健康 状况 。 由 于 
mongod 不 会 销毁 这 个 监控 器 ， 所 以 有 时 会 在 一 个 副本 集 的 日 志 中 看 到 
的 信息 。 这 是 很 正常 的 ， 不 会 对 应 用 程序 造成 任何 影 

Ds] 。 


16.2.2 ”限制 连接 数量 


当 有 客户 端 连接 到 mongos 时 ，mongos 会 创建 一 个 连接 ， 该 连接 应 至 少 
连接 到 一 个 分 片上 ， 以 便 将 客户 端 请 求 发 送 给 分 片 。 因 此 ， 每 个 连接 到 
mongos 的 客户 端 连 接 都 会 至 少 产 生 一 个 从 mongos 到 分 片 的 连接 。 


如 果 有 多 个 mongos 进 程 ， 可 能 会 创建 出 非常 多 的 连接 ， 甚 至 超出 分 所 的 
处 理 能 力 : 一 个 mongos 最 多 允许 20 000 个 连接 mongod 也 是 如 此 ) 。 如 
果 有 5 个 mongos 进 程 ， 每 个 mongos 有 10 000 个 客户 端 连 接 ， 那 么 这 些 
mongos 可 能 会 试图 创建 50 000 个 到 分 片 的 连接 ! 


为 防止 这 种 情况 的 发 生 ， 可 在 mongos 的 命令 行 配 置 中 使 用 maxconns 选 
项 ， 这 样 可 以 限制 mongos 能 够 创建 的 连接 数量 。 可 使 用 下 列 公 式 计算 分 
片 能 够 处 理 的 来 自 单 一 mongos 的 连接 数量 : 


maxConns=20 000-(mongos 进 程 的 数量 x3)-( 每 个 副本 集 的 成 员 数 量 x3)- 
其 他 /mongos 进 程 的 数量 ) 

















以 下 为 公式 的 相关 说 明 。 


。 (mongos 进 程 的 数量 x3) 
每 个 mongos 会 为 每 个 mongod 创 建 3 个 连接 : 一 个 用 于 转发 客户 端 请 
求 ， 一 个 用 于 追踪 错误 信息 ， 即 写 回 监听 器 (writeback 
listener) ， 一 个 用 于 监控 副本 集 状 态 。 


(每 个 副本 集 的 成 员 数 量 x3) 
主 节 点 会 与 每 个 备份 节操 创 建 一 个 连接 ， 而 每 个 备份 节点 会 与 主 市 
点 创建 两 个 连接 ， 因 此 总 共 是 3 个 连接 。 


(其 他 /mongos 进 程 的 数量 ) 

这 里 的 其 他 指 其 他 可 能 连接 到 mongod 的 进程 数量 ， 这 种 连接 包括 
MMS 代理 、shell 的 直接 连接 〈 管 理 员 用 ) ， 或 者 是 迁移 时 连接 到 
其 他 分 片 的 连接 。 


注意 ，maxconns 只 会 阻止 nongos 创 建 多 于 maxconns 数 量 的 连接 ， 但 并 不 
会 帮助 处 理 连接 耗 尽 的 问题 。 连 接 耗 尽 时 ， 请 求 会 发 生 阻 罕 ， 每 待 某 些 
连接 被 释放 。 因 此 ， 必 须 防止 应 用 程序 使 用 超过 maxconns 数 量 的 连接 ， 
尤其 是 在 mongos 进 程 数量 不 断 增 加 时 。 


MongoDB 实 例 在 安全 退出 时 ， 会 在 终止 运行 之 前 关闭 所 有 连接 。 已 经 
连接 到 MongoDB 的 成 员 会 立即 收 到 套 接 字 错误 (socket error) ， 并 能 够 
重新 刷新 连接 。 但 是 ， 如 果 MongoDB 实 例 由 于 断 电 、 骨 溃 或 者 网 络 问 
题 突 然 离线 ， 那 些 已 经 打开 的 套 接 字 很 可 能 没有 被 关闭 。 在 这 种 情况 
下 ， 集 群 内 的 其 他 服务 器 很 可 能 会 认为 这 个 MongoDB 实 例 仍 在 有 效 运 
转 ， 但 是 当 试 图 在 该 MongoDB 实 例 上 执行 操作 时 ， 束 会 遇 到 错误 ， 继 
而 刷新 连接 (如果 此 时 该 MongoDB 实 例 再 次 上 线 且 运转 正常 的 话 ) 。 


连接 数量 较 少 时 ， 可 快速 检测 到 某 台 MongoDB 实 例 是 否 已 离线 。 但 
是 ， 当 有 成 干 上 万 个 连接 时 ， 每 个 连接 都 需要 经 历 被 和 尝试、 检测 失 败 ， 
并 重新 建立 连接 的 过 程 ， 此 过 程 中 会 得 到 大 量 的 错误 。 在 出 现 大 量 重新 
连接 时 ， 除 了 重启 进程 ， 没 有 其 他 特殊 有 效 的 方法 。 

16.3 ”服务 器 管理 


随 着 集群 的 增长 ， 我 们 可 能 需要 增加 集群 容量 或 者 是 修改 集群 配置 。 本 























节 我 们 将 学 习 辐 集群 添加 服务 器 以 及 从 集群 删除 服务 器 的 方法 。 
16.3.1 添加 服务 器 


可 随时 癌 集 群 中 添加 新 的 mongos。 只 要 保证 在 mongos 的 --configdb 选 项 
中 指定 了 一 组 正确 的 配置 服务 ，mongos 即 可 立即 与 客户 端 建立 连接 。 


如 14 章 所 示 ， 可 使 用 addshard 命 令 ， 向 集群 添加 新 分 片 。 

16.3.2 ”修改 分 片 的 服务 需 

使 用 分 请 集 群 时 ， 我 们 可 能 会 希望 修改 某 单独 分 片 的 服务 器 。 要 修改 分 
片 的 成 员 ， 需 直接 连接 到 分 片 的 主 服务 器 上 《而 不 是 通过 mongos) ， 然 
后 对 副本 集 进 行 重新 配置 。 集 群 配置 会 自动 检测 更 改 ， 并 将 其 更 新 到 
config.shards 上 。 不 要 手动 修改 config.shards。 


只 有 在 使 用 单机 服务 器 作为 分 片 ， 而 不 是 使 用 副本 集 作 为 分 片 时 ， 才 需 
手动 修改 config.shards。 


将 单机 服务 此 分 片 修改 为 副本 集 分 厂 


最 简单 的 方式 是 添加 一 个 新 的 空 副 本 集 分 片 ， 然 后 移 除 单机 服务 右 分 片 
(参见 16.3.3 节 ) 。 


如 采 硕 望 把 单机 服务 器 分 片 转换 为 副本 集 分 片 ， 过 程 会 复杂 得 多 ， 而 且 


需要 停机 。 








. 停止 向 系统 发 送 请 求 。 

. 关闭 单机 服务 器 (这 里 称 其 为 server-1) 和 所 有 的 mongos 进 程 。 

. 以 副本 集 模式 重启 server-1 (使 用 --replset 选 项 ) 。 
.连接 到 server-1， 将 其 作为 一 个 单 成 员 副 本 集 进行 初始 化 。 

5. 连接 到 配置 服务 器 ， 蔡 换 该 分 片 的 入 口 ， 在 config.shards 中 将 分 片 
名 称 蔡 换 为 setName/server-1:27017 的 形式 。 确保 三 个 配置 服务 器 
都 拥有 相同 的 配置 信息 。 手 动 修改 配置 服务 器 是 有 风险 的 ! 


可 在 每 个 配置 服务 器 上 执行 dbhash 命 令 ， 以 确保 配置 信息 相同 : 





人 玉 品 计 一 


6. 


7. 
8. 
9. 


> db.runCcommand({"dbhash" : 1}) 


这 样 可 以 得 到 每 个 集合 的 MD5 散 列 值 。 不 同 配置 服务 器 上 ，config 
数据 库 的 集合 可 能 会 有 所 不 同 ， 但 config.shards 应 始终 保持 一 致 。 


重启 所 有 mongos 进 程 。 它 们 会 在 启动 时 从 配置 服务 器 读 取 分 片 数 
据 ， 然 后 将 副本 集 当 作 分 片 对 待 。 

重启 所 有 分 片 的 主 服务 器 ， 刷 新 其 配置 数据 。 

再 次 向 系统 发 送 请 求 。 

问 server-1 副 本 集中 添加 新 成 员 。 











这 一 


过 程 非常 复 林 ， 而 且 很 容易 出 错 ， 因 此 不 建议 使 用 。 应 尽 可 能 地 将 


数据 迁移 的 事情 交 给 集群 去 做 
就 好 了 。 


16.3.3 ”删除 分 片 


通常 来 说 ， 不 应 从 集群 中 删除 分 片 。 如 果 经 常 在 集群 中 添加 和 删除 分 
片 ， 会 给 系统 佛 来 很 多 不 必要 的 压力 。 如 果 向 集群 中 添加 了 过 多 的 分 


片 ， 





最 好 是 什么 也 不 做 ， 系 统 早晚 会 用 到 这 些 分 片 ， 而 不 应 该 将 多 余 的 


分 片 删 掉 ， 等 以 后 需要 的 时 候 再 将 其 重新 添加 到 集群 中 。 不 过 ， 在 必要 
的 情况 下 ， 是 可 以 删除 分 片 的 。 


首先 保证 均衡 器 是 开启 的 。 在 排出 数据 (draining〉 的 过 程 中 ， 均 衡器 
会 负责 将 竺 删除 分 片 的 数据 迁移 至 其 他 分 片 。 执 行 removeShard 命 令 ， 
开始 排出 数据 。removeshard 将 符 删 除 分 片 的 名 称 作 为 参数 ， 然 后 将 该 
分 片上 的 所 有 块 都 移 至 其 他 分 片上 : 


> db.adminCommand({"removeShard" : "test-rs3"}) 


"msg" : "draining started successfully", 
"state" : "started", 
"shard" : "test-rs3" 
"note" : "you need to drop or movePrimary these databases", 
"dbsToMove" : [ 
"blog" 六 
"music", 
"prod" 


], 
"ok" : 1 
} 





如 果 分 片上 的 块 较 多 ， 或 者 有 较 大 的 块 需 要 移动 ， 排 出 数据 的 过 程 可 能 
会 耗 时 更 长 。 如 果 存 在 特大 块 (jumbo chunk， 参 见 16.4.4 节 ) ， 可 能 需 
临时 提高 其 他 分 片 的 块 大 小 ， 以 便 能 够 将 特大 块 迁 移 到 其 他 分 万。 


如 需 碍 看 哪些 块 已 完成 迁移 ， 可 再 次 执行 removeshard 命 令 ， 碍 看 当前 
\ 态 : 
状态 
> db.adminCommand({"removeShard" : "test-rs3"}) 
"msg" : "draining ongoing", 
"state" : "ongoing", 
"remaining" : { 
"chunks" : NumberLong(5), 
"dbs" : NumberLong(0) 


ok"” :1 


在 一 个 处 于 排出 数据 过 程 的 分 片上 ， 可 执行 removeshard 任 意 多 次 。 


块 在 移动 前 可 能 需要 被 拆 分 ， 所 以 有 可 能 会 看 到 系统 中 的 块 数量 在 排出 
数据 时 发 生 了 增长 。 假 设 有 一 个 拥有 5 个 分 片 的 集群 ， 块 的 分 布 如 下 : 








test-rso 10 
test-rsi 10 
test-rs2 10 
test-rs3 11 
test-rs4 11 


该 集群 共有 52 个 块 。 如 果 删 除 test-rs3 分 片 ， 最 终 的 结果 可 能 会 是 : 


test-rso 15 
test-rsi 15 
test-rs2 15 
test-rs4 15 


集群 现在 拥有 60 个 块 ， 其 中 18 个 来 自 test-rs3 分 片 〈 原 本 有 11 个 ， 还 有 
7 个 是 在 排出 数据 的 过 程 中 创建 的 ) 。 


所 有 的 块 都 完成 迁移 后 ， 如 宁 仍 有 数据 库 将 该 分 片 作为 主 分 片 ， 需 在 删 
除 分 片 前 将 这 些 数据 库 移 除 掉 。removeshard 命 令 的 输出 结果 可 能 如 
下 : 


> db.adminCommand({"removeShard" : "test-rs3"}) 





"msg" : "draining ongoing", 
"state" : "ongoing", 
"remaining" : 


"chunks" : NumberLong(0), 
"dbs" : NumberLong(3) 
}, 


"note" : "you need to drop or movePrimary these databases", 
"dbsToMove" : [ 
"plo mh 
mo Le 
"prod" . 
], 
"ok" :; 1 


为 完成 分 片 的 删除 ， 需 先 使 用 movePrimary 命 令 将 这 些 数据 库 移 走 : 


> db.adminCommand({"movePrimary" : "blog", "to" : "test-rs4"}) 
"primary " : "test-rs4:test-rs4/ubuntu:31500,ubuntu:31501,ubuntu:31502", 
"ok" :; 1 

} 


然后 再 次 执行 removeshard 命 令 : 


> db.adminCommand({"removeShard" : "test-rs3"}) 
"msg" : "removeshard completed successfully", 
"state" : "completed", 
"shard" : "test-rs3", 
rok" i 1 

} 








最 后 一 步 不 是 必需 的 ， 但 可 确保 已 确实 完成 了 分 片 的 删除 。 如 果 不 存在 
将 该 分 片 作 为 主 分 片 的 数据 库 ， 则 块 的 迁移 完成 后 ， 即 可 看 到 分 片 删除 
成 功 的 输出 信息 。 

注意 ， 如 果 分 片 开 始 排出 数据 ， 就 没有 内 置办 法 停止 这 一 过 程 了 。 
16.3.4 ”修改 配置 服务 器 


修改 配置 服务 器 是 非常 困难 的 ， 而 且 有 风险 ， 通 第 还 需要 停机 。 注 意 ， 
修改 配置 服务 器 前 ， 应 做 好 备份 。 


在 运行 期 间 ， 所 有 mongos 进 程 的 - -configdb 选 项 值 都 必须 相同 。 因 此 ， 








要 修改 配置 服务 器 ， 首 先 必须 关闭 所 有 的 mongos 进 程 (mongos 进 程 在 
使 用 旧 的 - -configdb 参 数 时 ， 无 法 继续 保持 运行 状态 ) ， 然 后 使 用 新 
的 - -configdb 参 数 重 局所 有 mongos 进 程 。 


例如 ， 将 一 台 配 置 服务 器 增 至 三 台 是 最 常见 的 任务 之 一 。 为 实现 此 操 
作 ， 首 先 应 关闭 所 有 的 mongos 进 程 、 配 置 服务 器 ， 以 及 所 有 的 分 片 。 然 
后 将 配置 服务 器 的 数据 目录 复制 到 两 台新 的 配置 服务 器 上 《〈 这 样 三 台 配 
置 服务 器 就 可 以 拥有 完全 相同 的 数据 目录 ) 。 接 着 ， 启 动 这 三 台 配 置 服 
务 器 和 所 有 分 片 。 然 后 ， 将 --configdb 选 项 指定 为 这 三 台 配 置 服务 器 ， 
最 后 重启 所 有 的 mongos 进 程 。 


16.4 ”数据 均衡 


通常 来 说 ，MongoDB 会 自动 处 理 数据 均衡 。 本 市 我 们 将 学 习 如 何 局 用 
和 禁用 目 动 均衡 ， 以 及 如 何人 为 干涉 均衡 过 程 。 


16.4.1 均衡 器 


在 执行 几乎 所 有 的 数据 库 管理 操作 之 前 ， 都 应 先 关 闭 均 衡器 。 可 使 用 下 
列 shell 辅 助 函数 关闭 均衡 器 : 


> sh.setBalancerState(false) 




















均衡 器 关闭 后 ， 系 统 则 不 会 再 进入 均衡 过 程 ， 但 该 命令 并 不 能 立即 终止 
进行 中 的 均衡 过 程 : 迁移 过 程 通常 无 法 立即 停止 。 因 此 ， 应 检查 
config.locks 集 合 ， 以 查看 均衡 过 程 是 否 仍 在 进行 中 : 


> db.locks.find({"_id" : "balancer"})["state"] 
0 





此 处 的 0 表明 均 条 已 被 关闭 。 可 翻 间 " 均 条 器 " 节 查 看 区 和 器 状 态 相 


均衡 过 程 会 增加 系统 负载 : 目标 分 片 必 须 碍 询 产 分 片 块 中 的 所 有 文档 ， 
将 文档 插入 目标 分 片 的 块 中 ， 源 分 片 最 后 必须 删除 这 些 文档 。 在 以 下 两 
种 特殊 情况 下 ， 迁 移 会 导致 性 能 问题 。 


1. 使 用 热点 片 键 可 保证 定期 迁移 (因为 所 有 的 新 块 都 是 创建 在 热点 上 
的 ) 。 系 统 必 须 有 能 力 处 理 源源 不 断 写 入 到 热点 分 片上 的 数据 。 


2. 问 集群 中 添加 新 的 分 片 时 ， 均 衡器 会 试图 为 该 分 片 写 入 数据 ， 从 而 
触发 一 系列 的 迁移 过 程 。 


如 果 发 现 数 据 迁 移 过 程 影响 了 应 用 程序 性 能 ， 可 在 config.settings 集 合 中 
为 数据 均衡 指定 一 个 时 间 窗 口 。 执 行 下 列 更 新 语句 ， 均 衡 则 只 会 在 下 午 
1 点 到 4 点 间 发 生 : 

> db.settings.update({"” id"”: "balancer"}, 


.. {"$set" : {"activeWindow" : {"start" : "13:00", "Stop"”: "16:00"}}}, 
.. true ) 


如 指定 了 均衡 时 间 窗 ， 则 应 对 其 进行 严密 监控 ， 以 确保 mongos 人 确实 只 在 
指定 的 时 间 内 做 均衡 。 


如 需 混用 手动 均衡 和 自动 均衡 ， 必 须 格外 小 心 。 因 为 自动 均衡 器 总 是 根 
据 数据 集 的 当前 状态 来 决定 数据 迁移 ， 而 不 考虑 数据 集 的 历史 状态 。 例 
如 ， 假 设 有 两 个 分 片 shardA 和 shardB， 每 个 分 片 都 有 500 个 块 。 由 于 
shardA 上 的 写 请 求 比较 多 ， 因 此 我 们 关闭 了 均衡 器 ， 从 最 活跃 的 块 中 取 
出 30 个 移 至 shardB。 此 时 如 再 启用 均衡 器 ， 则 会 立即 将 30 个 块 (很 可 能 
不 是 刚刚 的 30 块 ) 从 shardB 移 至 shardA， 以 均衡 两 个 分 片 拥有 的 块 数 


里 。 


为 防止 这 种 情况 发 生 ， 可 在 启用 均衡 器 之 前 从 shardB 选 取 30 个 不 活跃 的 
块 移 至 shardA。 这 样 两 个 分 厂 间 就 不 会 存在 不 均衡 ， 均 衡器 也 不 会 进行 
数据 块 的 移动 了 。 另 外 ， 也 可 在 shardA 上 拆 分 出 一 些 块 ， 以 实现 shardA 
和 shardB 的 均衡 。 


注意 ， 均 衡器 只 使 用 块 的 数量 ， 而 非 数 据 大 小 ， 作 为 衡量 分 片 间 是 否 均 
衡 的 指标 。 因 此 ， 如 果 A 分 片 只 拥有 几 个 较 大 的 数据 块 ， 而 B 分 片 拥有 
许多 较 小 的 块 〈( 但 总 数据 大 小 比 A 小 ，， 那 么 均衡 器 会 将 B 分 片 的 一 些 
块 移 至 A 分 片 ， 从 而 实现 均衡 。 


16.4.2 ”修改 块 大 小 


块 中 的 文档 数量 可 能 为 0， 也 可 能 多 达 数 百 万 。 通 常情 况 下 ， 块 越 大 ， 
迁移 至 分 片 的 耗 时 束 越 长 。 在 第 13 章 中 ， 我 们 使 用 的 是 1 MB 的 块 ， 所 


























以 块 移动 起 来 非常 容易 与 迅速 。 但 在 实际 系统 中 ， 这 通常 是 不 现实 的 。 

MongoDB 需 要 做 大 量 非 必 要 的 工作 ， 才 能 将 分 片 大 小 维持 在 儿 MB 以 

Ss MB， 这 个 大 小 的 块 既 易于 迁移 ， 又 不 会 导致 过 
站 沉 o 


有 时 可 能 会 发 现 移 动 64 MB 的 块 耗 时 过 长 。 可 通过 减 小 块 的 大 小 ， 提 高 
迁移 速度 。 使 用 shell 连 接 到 mongos， 然 后 修改 config.settings 集 合 ， 从 而 
完成 块 大 小 的 修改 : 


> db.settings.findone() 
{ 


_id" : "chunksize", 
"value" : 64 
} 
> db.settings.save({"_id" :; "chunksize", "value" : 32}) 


以 上 修改 操作 将 块 的 大 小 减 至 32 “MB。 已 经 存在 的 块 不 会 立即 发 生 改 
变 ， 执 行 块 拆 分 操作 时 ， 这 些 块 即 可 拆 分 成 32 MB 大 小 。mongos 进 程 会 
自动 加 载 新 的 块 大 小 。 


注意 ， 该 设置 的 有 效 范 围 是 整个 集群 : 它 会 影响 所 有 集合 和 数据 库 。 

此 ， 如 需 对 一 个 集合 使 用 较 小 的 块 ， 而 对 为 一 集合 使 用 较 大 的 块 ， 比 较 

OE (或 者 将 这 两 个 集合 放 在 不 同 的 集群 
2 





PR 则 可 能 需要 增加 块 的 大 
小 。 


16.4.3 ”移动 块 


如 前 所 述 ， 同 一 块 内 的 所 有 数据 都 位 于 同一 分 片上 。 如 该 分 所 的 块 数量 
比 其 他 分 片 多 ， 则 MongoDB 会 将 其 中 的 一 部 分 块 移 人 至 其 他 块 数量 较 少 
的 分 片上 。 移 动 块 的 过 程 叫 做 迁移 (migration，，MongoDB 束 是 这 样 
在 集群 中 实现 数据 均衡 的 。 


可 在 shell 中 使 用 movechunk 辅 助 水 数 ， 手 动 移动 块 : 


> sh.moveCchunk("test.users", f{"user_id" : NumberLong("1844674407370955160")}, 
mh 


， spock 
{ "millis" : 4079, "ok" : 1 } 


以 上 命令 会 将 包含 文档 user_id 为 1844674407370955160 的 块 移 至 名 

为 spock 的 分 片上 。 必 须 使 用 片 键 来 找 出 所 需 移动 的 块 〈( 本 例 中 的 片 键 
是 user_id) 。 通 常 ， 指 定 一 个 块 最 简单 的 方式 是 指定 它 的 下 边界 ， 不 
过 指定 块 范围 内 的 任何 值 都 可 以 〈 块 的 上 边界 值 除 外 ， 因 为 其 并 不 包含 
在 块 范围 内 ) 。 该 命令 在 块 移动 完成 后 才 会 返回 ， 因 此 需 一 定 耗 时 才能 
看 到 输出 信息 。 如 某 个 操作 耗 时 较 长 ， 可 在 日 志 中 详细 查看 问题 所 在 。 


0 0 











> sh.moveChunk("test.users", f{"user_id" : NumberLong("1844674407370955160")}, 


， "Spock") 

"cause" : { 
"chunkTooBig" : true, 
"estimatedChunkSize" : 2214960, 
"ok" ; 0 
"errmsg" : "chunk too big to move" 

}, 

"Ook" : 0， 

"errmsg" : "move failed" 


本 例 中 ， 移 动 这 个 块 之 前 ， 必 须 先 手 动 拆 分 这 个 块 。 可 使 用 splitAt 命 
令 对 块 进行 拆 分 : 


> db.chunks.find({"ns" :; "test.users", 
， "min.user_id" : NumberLong("1844674407370955160")}) 


{ 
"_id" : "test.users-user_id NumberLong(\"1844674407370955160\")", 
"ns" :; "test.users", 
"min" : { "user_id" : NumberLong("1844674407370955160") }, 
"max" : { "user_id" : NumberLong("2103288923412120952") }, 
"shard" : "test-rs2" 

} 

> sh.splitAt("test.ips", {"user_id" : NumberLong("2000000000000000000")}) 

{ "ok" p 1 } 

> db.chunks.find({"ns" :; "test.users", 

... "min.user_id" : {"$gt" : NumberLong("1844674407370955160")}, 

... "max.user_id" : {"$1lt" : NumberLong("2103288923412120952")}}) 

{ 
"_id" : "test.users-user_id NumberLong(\"1844674407370955160\")", 
"ns" :; "test.users", 
"min" : { "user_id" : NumberLong("1844674407370955160") }, 
"max" : { "user_id" : NumberLong("2000000000000000000") }, 
"shard" : "test-rs2" 

} 

{ 
"_id" : "test.users-user_id NumberLong(\"2000000000000000000\")", 
"ns" :; "test.users", 


"min" : "user_id" : NumberLong("2000000000000000000" . 
9 
"max" : { "user_id" : NumberLong("2103288923412120952") }, 


"shard" : "test-rs2" 


块 被 拆 分 为 较 小 的 块 后 ， 束 可 以 被 移动 了 。 也 可 以 调 高 最 大 块 的 大 小 ， 
然后 再 移动 这 个 较 大 的 块 。 不 过 应 尽 可 能 地 将 大 块 拆 分 为 小 块 。 不 过 有 
时 有 些 块 无 法 被 拆 分 ， 这 些 块 被 称 作 特 大 块 。 


16.4.4 ”特大 块 


假设 使 用 date 字 段 作 为 片 键 。 集 合 中 的 date 字 段 是 一 个 日 期 字符 串 ， 格 
式 为 year/month/day， 也 就 是 说 ， mongos 一 天 最 多 只 能 创建 一 个 块 。 最 
初 的 一 段 时 间 内 一 切 正 常 ， 直 到 有 一 天 ， 应 用 程序 的 业务 量 突然 出 现 病 
毒 式 增长 ， 流 量 比 平常 大 了 上 千 倍 ! 


这 一 天 的 块 要 比 其 他 日 期 的 大 得 多 ,但 由 于 块 内 所 有 文档 的 片 键 值 都 是 
一 样 的 ， 因 此 这 个 块 是 不 可 拆 分 的 。 


如 果 块 的 大 小 超出 了 config.settings 中 设置 的 最 大 块 大 小 ， 那 么 均衡 器 就 
I 这 种 不 可 拆 分 和 移动 的 块 束 叫做 特大 块 ， 这 种 块 相 
当 难 对 付 。 


举例 来 说 ， 假 如 有 3 个 分 片 shard1、shard2 和 shard3。 如 果 使 用 热点 片 键 

模式 〈 参 见 15.2.1 节 ) ， 假 设 shardl 是 热点 片 键 ， 则 所 有 写 请 求 都 会 被 分 

发 到 shard1 上 。mongos 会 试图 将 块 均衡 地 分 发 在 这 些 分 片上 。 但 是 ， 均 

st 因此 它 只 会 将 所 有 较 小 块 从 热点 分 片 迁移 到 其 
分 片 。 


现在 ， 所 有 分 片上 的 块 数 基本 相同 ， 但 shard2 和 shard3 上 的 所 有 块 都 小 
于 64 MB。 如 shard1 上 出 现 了 特大 块 ， 则 shard1 上 会 有 越 来 越 多 的 块 大 于 
64 MB。 这 样 ， 即 使 三 个 分 片 的 块 数 非常 均衡 ， 但 shardi 会 比 男 两 个 分 
片 更 早 被 填 满 。 

出 现 特大 块 的 表现 之 一 是 ， 某 分 片 的 大 小 增长 速度 要 比 其 他 分 片 快 得 
多 。 也 可 使 用 sh.status () 来 检查 是 否 出 现 了 特大 块 : 特大 块 会 存在 一 
个 jumbo 属 性 。 


> sh.status() 








{ "x : -7} -->>{"x" :5} on : shard0001 
{ "x" :5}-->>{"x" :6 } on : shard0001 jumbo 


} -->>{"x" :7} on : shard0001 jumbo 
} -->>{ "x" : 339 } on : shard0001 


可 使 用 datasize 命 令 检 查 块 大 小 。 
首先 ， 使 用 config.chunks 集 合 ， 碍 看 块 范围 : 


> use config 
> Var chunks = db.chunks.find({"ns" :; "acme.analytics"}).toArray() 


然后 根据 这 些 块 范围 ， 找 出 可 能 的 特大 块 : 


> use dbName 


> db.runCommand({"dataSize" : "dbName.collName", 
.， "keyPattern" : {"date" : 1}，// 片 键 
.. "min" : chunks[0] .min, 


.. "max" : chunks[0].max}) 
{ "size" :; 11270888, "numObjects" : 128081, "millis" : 100, "ok" : 1 } 


但 要 小 心 ， 因 为 datasize 命 令 要 扫描 整个 块 的 数据 才能 知道 块 的 大 小 。 
因此 如 果 可 能 ， 应 首先 根据 自己 对 数据 的 了 解 ， 尽 可 能 缩小 搜索 范围 : 
特大 块 是 在 特定 日 期 出 现 的 吗 ? 例如 ， 如 果 11 月 1 号 的 时 候 系 统 非 第 繁 
忙 ， 则 可 冬 试 检查 这 一 天 创建 的 块 的 片 键 范围 。 如 使 用 了 GridFS， 而 且 
征 依据 files_id 字 段 进行 分 片 的 ， 则 可 通过 fs.files 集 合奏 看 文件 大 小 。 


1. 分 及 特大 块 
0 
刀 o 

















这 是 一 个 非常 复杂 的 手动 过 程 ， 而 且 不 应 引起 停机 (可 能 会 导致 系统 变 
慢 ， 因 为 要 迁移 大 量 的 数据 ) 。 接 下 来 ， 我 们 以 from 分 片 来 指 代 拥有 特 
大 块 的 分 片 ， 以 to 分 片 来 指 代 特大 块 即将 移 至 的 目标 分 片 。 注 意 ， 如 有 
多 个 from 分 乒 ， 则 需 对 每 个 from 分 片 重复 下 列 步 又 : 








1. 关闭 均衡 器 ， 以 防 其 在 这 一 过 程 中 出 来 的 乱 : 


> sh.setBalancerState(false) 


2. MongoDB 不 允许 移动 大 小 超出 最 大 块 大 小 设 定 值 的 块 ， 所 以 需 临 
时 调 高 最 大 块 大 小 的 设 定 值 。 记 下 特大 块 的 大 小 ， 然 后 将 最 大 块 大 
和 比如 10 000。 块 大 小 的 单 
YY 是 MB: 











> use config 


> db.settings.findone({"_id" : "chunksize"}) 
{ 
"_id" :; "chunksize", 
"value" : 64 
} 
> db.settings.save({"_id" : "chunksize", "value" : 10000}) 


3. 使 用 movechunk 命 令 将 特大 块 从 from 分 片 移 至 to 分 片 。 如 担心 迁移 会 
对 应 用 程序 的 性 能 造成 影响 ， 可 使 用 secondaryThrootle 选 项 ， 放 慢 
迁移 的 过 程 ， 减 组 对 系统 性 能 的 影响 : 


> db.adminCommand({"moveChunk" : "acme.analytics", 
.. "find" : {"date" : new Date("10/23/2012")}, 
.. "to" :; "shard0002", 


.. "SecondaryThrottle" : true}) 


secondaryThrottle 会 强制 要 求 迁 移 过 程 则 区 进行 ， 每 迁移 完 一 些 数 
据 ， 需 等 待 集群 中 的 大 多 数 分 斤 成 功 完 成 数据 复制 后 再 进行 下 一 次 
迁移 。 该 选项 只 有 在 使 用 副本 集 分 斤 时 才 会 生效 。 如 使 用 单机 服务 
妖 分 片 ， 则 该 选项 不 会 生效 。 


4. 使 用 splitchunk 命 令 对 from 分 片 剩余 的 块 进行 拆 分 ， 这 样 可 以 增加 
from 分 片 的 块 数 ， 直 到 实现 from 分 片 与 其 他 分 片 块 数 的 均衡 。 


5. 将 块 大 小 修改 回 最 初 值 : 


> db.settings.save({"_id" : "chunksize", "value" : 64}) 


6. 局 用 均衡 器 。 


> sh.setBalancerState(true) 





均衡 器 被 再 次 启用 后 ， 仍 旧 不 能 移动 特大 块 ， 不 过 此 时 那些 特大 块 都 已 
位 于 合适 的 位 置 了 。 


2. 防止 出 现 特大 块 





随 着 存储 数据 量 的 增长 ， 上 一 节 提 到 的 手动 过 程 变 得 不 再 可 行 。 因 此 ， 
如 在 特大 块 方面 存在 问题 ， 应 首先 想 办 法 避免 特大 块 的 出 现 。 


为 防止 特大 块 的 出 现 ， 可 修改 片 键 ， 细 化 片 键 的 粒度 。 应 尽 可 能 保证 每 
个 文档 都 拥有 唯一 的 片 键 值 ， 或 至 少 不 要 出 现 茶 个 片 键 值 的 数据 块 超出 
最 大 块 大 小 设 定 值 的 情况 。 


例如 ， 如 使 用 前 面 所 述 的 年 /月 /日 片 键 ， 可 通过 添加 时 、 分 、 秘 来 细 化 
片 键 粒 度 。 类 似 地 ， 如 使 用 粒度 较 大 的 片 键 ， 如 日 志 级 别 ， 则 可 添加 一 
个 粒度 较 细 的 字段 作为 片 键 的 第 二 个 字段 ， 如 MD5 散 列 值 或 UDID。 这 
样 一 来 ， 即 使 有 许多 文档 片 键 的 第 一 个 字段 值 是 相同 的 ， 也 可 一 直 对 块 
进行 拆 分 ， 也 就 防止 了 特大 块 的 出 现 。 


16.4.5 ”刷新 配置 
最 后 一 点 ，mongos 有 时 无 法 从 配置 服务 器 正确 更 新 配置 。 如 发 现 配 置 有 


误 ，mongos 的 配置 过 旧 或 无 法 找到 应 有 数据 ， 可 使 
用 flushRouterconfig 命 令 手动 刷新 所 有 缓存 : 


>db.adminCommand({"flushRouterConfig" :; 1}) 

















如 flushRouterconfig 命 令 没 能 解决 问题 ， 则 应 重启 所 有 的 mongos 或 
mongod 进 程 ， 以 便 清 除 所 有 可 能 的 绥 存 。 


第 五 部 人 
部 分 应 用 管理 


第 17 章 ”了解 应 用 的 动态 


局 动 并 运行 应 用 后 ， 要 如 何 知 道 它 正 在 做 些 什么 呢 ? 本 章 将 介绍 如 何 了 
解 MongoDB 正 在 进行 何 种 查询 ， 有 多 少数 据 正在 写 入 ， 以 及 如 何 探 得 
MongoDB 具 体 正在 做 些 什么 。 我 们 将 学 到 : 








e。 如 何 找 到 并 终止 那些 拖 慢 速度 的 操作 ; 

。 获取 并 分 析 有 关 集 合 和 数据 库 的 统计 数据 ; 

。 用 命令 行 工 具 来 了 解 MongoDB 正 在 做 些 什么 。 
17.1 了 解 正在 进行 的 操作 
要 想 找 到 是 哪些 操作 拖 慢 了 速度 ， 看 看 正在 进行 的 操作 不 失 为 一 种 简单 
的 方法 。 速 度 慢 的 操作 耗 时 更 长 ， 更 有 可 能 被 发 现 。 虽 然 不 能 保证 一 定 
会 有 结果 ， 但 这 是 个 不 错 的 开始 。 


查看 正在 进行 的 操作 ， 可 使 用 db.currentop() 函 数 : 


> db.currentop() 





"inprog"” :; [ 
{ 


"opid" :; 34820, 
"active" : true, 
"secs_running" : 0, 
"op" : "guery", 

"ns" : "test.users", 


"count" : "users", 
"query" : { 
"UsSername" : "USer12345" 


}, 
"fields" : { 
} 


}, 
"client™" : "127.0.0.1:39931", 
"desc" :; "conn3", 
"threadId" : "Ox7f12d61c7700", 
"connectionId" : 3, 
"Jocks" : { 

TAU 

"Atest" ' iR" 


a 

"waitingForLock" : false, 
"numYields" : 0, 
"JockStats" : { 


"timeLockedMicros" : { 


"timeAcquiringMicros" pi 
"r" ; NumberLong(9), 
"Ww" ; NumberLong(0) 
} 


该 函 人 输出 的 信息 中 有 些 重 要 的 字 


opid 

这 是 操作 的 唯一 标识 符 (identifier) ， 可 通过 它 来 终止 一 个 操作 
(参见 17.1.2 节 ) 。 

active 





表示 该 操作 是 否 正在 运行 。 如 这 一 字段 的 值 是 false， 意 味 着 此 操 
作 已 交 出 或 正 等 待 其 他 操作 交 出 锁 。 

secs_running 

表示 该 操作 已 经 执行 的 时 间 。 可 通过 它 来 判断 是 哪些 查询 耗 时 过 
长 ,或 者 占用 了 过 多 的 数据 库 资源 。 


op 

表示 操作 的 类 型 。 通 常 是 人 查询、 插入、 更 新 、 删 除 中 的 一 种 。 注 
0 

desc 

该 值 可 与 日 志 (log) 信息 联系 起 来 。 日 志 中 与 此 连接 相关 的 每 一 
答 记 录 部 会 以 [eonn3] 为 前 级 ， 因 此 可 以 此 来 逢 选 相关 的 日 志 信 


locks 
描述 该 操作 使 用 的 锁 的 类 型 。 其 中 “ 心 表示 全 局 锁 。 
waitingForLock 





表示 该 操作 是 否 因 正 在 等 待 其 他 操作 交 出 锁 而 处 于 阻塞 状态 。 
numYields 

表示 该 操作 区 出 锁 yield》， 而 使 其 他 操作 得 以 运行 的 次 数 。 通 
常 ， 进 行文 档 搜索 的 操作 (查询 、 更 新 和 删除 》 可 交 出 锁 。 只 有 在 
其 他 操作 列队 等 待 该 操作 所 持 的 锁 时 ， 它 才 会 交 出 自己 的 锁 。 简 单 


地 讲 ， 如 果 没 有 其 他 操作 处 于 waitingForLock 状 态 ， 则 该 操作 不 会 
交 出 锁 。 
e lockstats.timeAcquiringMicros 


表示 该 操作 需要 多 长 时 间 才 能 取得 所 需 的 锁 。 


在 执行 currentop() 时 ， 可 添加 过 小 条 件 ， 从 而 只 显示 符合 条 件 的 结 
果 。 例 如 ， 只 显示 在 东 一 命名 空间 中 进行 的 操作 ， 或 只 显示 已 运行 了 一 
定时 间 的 操作 。 把 查询 条 件 作 为 参数 传 入 函数 来 进行 过 滤 : 


> db.currentop({"ns" : "prod.users"}) 





对 于 currentop 中 的 任何 字段 都 可 以 进行 查询 ， 使 用 普通 的 查询 语句 即 
可 。 


17.1.1 寻找 有 问题 的 操作 


db.currentop() 最 第 见 的 作用 就 是 用 来 寻找 速度 较 慢 的 操作 。 可 采用 上 
一 方 中 提 到 的 过 小 方法 ， 来 查找 哪 些 查 询 消耗 的 时 间 超 过 了 一 定 的 值 。 
也 许 能 通过 该 方法 找 出 哪里 缺少 了 索引 ， 或 是 进行 了 不 恰当 的 条 件 过 


滤 。 

有 时 会 发 现 正在 运行 一 些 不 明 查 询 ， 这 通常 是 由 于 一 个 应 用 服务 器 在 运 
行 一 个 旧 的 或 有 漏洞 的 软件 版 本 所 导致 的 。"client" 字 段 可 用 来 帮助 追 
踪 找 出 这 些 不 明 操 作 的 来 源 。 

17.1.2 终止 操作 的 执行 


只 要 找到 了 想 要 终止 的 操作 ， 就 可 将 该 操作 的 opid 作 为 参数 ， 通 过 执 
行 db .killop() 来 终止 该 操作 的 执行 : 


> db.kill0p(123) 














并 非 所 有 操作 都 能 被 终止 。 一 般 来 讲 ， 只 有 交 出 了 锁 的 进程 才能 被 终 
止 ， 因 此 更 新 Cupdate) 、 查 找 (find) 、 删 除 (remove) 操作 都 可 被 
A 


如 果 问 一 个 操作 发 出 了 “kill* 信 号， 那么 它 在 db.currentop 的 输出 中 束 会 


有 一 个 killed 字 段 。 然 而， 只 有 从 当前 操作 列表 消失 后 ， 它 才 会 真正 的 
得 到 终止 。 


17.1.3 ”假象 


在 查找 哪些 操作 耗 时 过 长 时 ， 可 能 会 发 现 一 些 长 时 间 运 行 的 内 部 操作 。 
根据 设置 ，MongoDB 可 能 会 长 时 间 地 执行 知 干 请 求 。 最 常见 的 是 用 于 
复制 〈replication) 的 线程 〈 它 会 持续 同 同步 源 请 求 更 多 的 操作 ) 和 分 
片 中 用 于 回 写 (writeback) 的 监听 器 (listener) 。 所 有 1local.oplog.rs 
中 的 长 时 间 运 行 请 求 ， 以 及 所 有 回 写 监听 命令 ， 都 可 以 被 忽略 掉 。 


如 以 上 操作 被 终止 ，MongoDB 则 会 重启 它们 。 不 过 ， 通 常 我 们 不 应 该 
这 么 做 。 终 止 用 于 复制 的 线程 会 短暂 地 中 止 复制 操作 ， 而 终止 挥 回 写 监 
听 器 则 可 能 会 造成 nongos 遗 漏 正常 的 写 入 错误 。 


17.1.4 避免 幽灵 操作 


这 是 一 个 不 常见 的 ， 只 有 在 MongoDB 中 才 可 能 会 遇 到 的 问题 ， 尤 其 是 
在 进行 静态 加 载 (bulk-loading) 数据 至 集合 的 时 候 。 假 设 现 在 我 们 建立 
了 一 个 任务 (job) ， 用 于 在 MongoDB 中 进行 上 千 条 更 新 操作 ， 而 
MongoDB 正 逐渐 趋 于 停止 。 我 们 迅速 停止 了 这 一 任务 ， 终 止 了 正在 进 
行 的 所 有 更 新 操作 。 然 而 ， 我 们 会 发 现 新 的 更 新 操作 不 断 出现 ， 哪 怕 任 
务 已 经 不 再 运行 ! 


如 果 使 用 非 应 答 式 写 入 (unacknowledge _ write) 加 载 数 据 ， 应 用 触发 写 
入 操作 的 速度 可 能 要 比 MongoDB 处 理 的 速度 更 快 。 如 MongoDB 有 所 准 

备 ， 这 些 写 入 会 堆积 在 操作 系统 的 套 接 字 绥 存 (socket ”buffer) 中 。 终 
止 挥 MongoDB 正 在 进行 的 写 入 操作 后 ，MongoDB 则 开始 处 理 缓存 区 中 

的 写 入 操作 。 即 使 停止 客户 端 发 送 ，MongoDB 也 会 处 理 这 些 缓存 中 的 

写 入 请 求 ， 因 为 它们 已 经 被 MongoDB 所 接收 了 ， 只 不 过 还 没有 进行 处 

理 而 证 5 

阻止 这 些 幽 灵 写 入 的 最 好 方式 是 使 用 应 答 式 写 入 ， 即 每 次 写 入 操作 都 会 
等 待 上 一 次 写 入 操作 完成 后 才 会 进行 下 去 ， 而 非 在 上 一 次 写 入 进入 数据 
库 服务 器 的 缓存 区 就 开始 下 一 次 写 入 。 


17.2 ”使 用 系统 分 析 器 

















可 利用 系统 分 析 器 (system profiler) 来 查找 耗 时 过 长 的 操作 。 系 统 分 析 
器 可 记录 特殊 集合 system.profile 中 的 操作 ， 并 提供 大 量 有 关 耗 时 过 长 的 
操作 信息 ， 但 相应 的 ，mongod 的 整体 性 能 也 会 有 所 下 降 。 因 此 ， 我 们 
可 能 只 需 定期 打开 分 析 器 来 获取 信息 即 可 。 如 系统 已 经 负载 过 重 ， 则 建 
议 使 用 本 章 介 绍 的 男 一 方法 来 解决 问题 。 


默认 情况 下 ， 系 统 分 析 器 处 于 关闭 状态 ， 不 会 进行 任何 记录 。 可 在 shell 
中 运行 db.setProfilingLevel0 开 启 分 析 器 : 








> db.setProfilingLevel(2) 
{ "was" : 0, "slowms" : 100, "ok" :; 1 } 





以 上 命令 将 分 析 右 的 级 别 设 定 为 2 级 ， 意 味 着 “分 析 絮 会 记录 所 有 内 
容 ”。 数 据 库 收 到 的 所 有 读 写 请 求 都 将 被 记录 在 当前 数据 库 的 
system.profile 集 合 中 。 每 一 个 数据 库 都 局 用 了 分 析 器 ， 这 也 将 带 来 大 
量 的 性 能 损失 ， 因 为 每 一 次 写 操作 都 会 增加 额外 的 写 入 时 间 ， 而 每 一 次 
读 操 作 都 要 等 待 写 锁 《因为 它 必 须 在 system.profile 集 合 中 写 入 记录 ) 。 
然而 ， 它 也 会 提供 给 我 们 系统 进行 操作 的 详尽 列表 : 

> db.foo.insert({x:1}) 

> db.foo.update({}, {$set:{x:2}}) 


> db.foo.remove() 
> db.system.profile.find().pretty() 





{ 
"ts" : ISODate("2012-11-07T18:32:35.2192Z"), 
"op" : "insert", 
"ns" :; "test.foo", 
"millis" :; 37, 
"client™" :; "127.0.0.1", 
"User" ‘ Wr 
} 
{ 
"ts" : ISODate("2012-11-07T18:32:47.334Z"), 
"op" : "update", 
"ns" :; "test.foo", 
"query"” : { 


}, 
"updateobj" : { 
"$ 


set"” : { 
Use 7 2 
} 
}, 
"nscanned" : 1, 
"fastmod" : true, 
"millis" :; 3, 
"client™ :; "127.0.0.1", 
"user" ' Wn 


rc 


"ts" : ISODate("2012-11-07T18:32:50.0582Z"), 
"op" : "remove", 

"ns : "test.foo", 

"query" : { 

}, 

"millis" : 0， 

"client™ : "127.0.0.1", 

"User" , mr 


在 "client" 客户 并 ) 字段 中 可 看 到 各 操作 是 由 哪个 用 户 发 送 至 数据 库 
00 0 .0.0 


一 般 情 况 下 ， ”我 们 只 想 关 注 那 些 耗 时 过 长 的 操作 ， 而 非 数 据 库 中 正在 
进行 的 所 有 操作 。 为 此 ， 可 将 分 析 器 的 分 析 级 别 设 为 1， 即 只 显示 长 耗 
时 操作 。 级 别 为 1 的 分 析 器 会 默认 记录 耗 时 大 于 100 ms 的 操作 。 也 可 以 
自 定 义 “ 耗 时 过 长 ”的 标准 ， 把 这 个 值 作 为 do.setProfillingLevel() 函 数 
的 第 二 个 参数 。 以 下 命令 会 记录 所 有 耗 时 超过 500 ms 的 操作 : 


> db.setProfilingLevel(1, 500) 
{ "was" : 2, "slowms" : 100, "oO 





k" :1} 


将 分 析 级 别 设 为 0 可 关闭 分 析 器 。 


> db.setProfilingLevel(0) 
{ "was" : 1, "slowms" : 500，"ok" : 1 } 


通常 情况 下 ， 不 要 将 slowms 的 值 设 得 过 小 。 即 使 分 析 器 处 于 关闭 状 

态 ，slowms 也 会 对 mongod 有 所 影响 ， 因 为 它 决 定 了 哪些 操作 将 作为 耗 时 
过 长 操作 被 记录 到 日 志 中 。 因 此 ， 如 果 将 slowms 设 为 2 ms， 那 么 哪怕 分 
析 器 是 关闭 着 的 ， 每 个 耗 时 超过 2 ”ms 的 操作 也 都 会 出 现在 日 志 里 。 因 
此 ， 如 果 出 于 某 些 需求 降低 了 slowms 的 值 ， 那 么 应 在 关闭 分 析 器 前 将 它 
重新 调 高 。 

可 通过 db.getProfilingLevel() 来 查看 当前 的 分 析 级 别 。 分 析 级 别 的 设 
定 值 会 在 重启 数 据 库 后 被 清除 。 


也 可 在 命令 行 中 使 用 --profile level 和 --slowms time 选项 来 配置 分 析 
恬 的 级 别 。 但 更 改 分 析 级 别 通常 只 是 在 调试 时 作为 一 种 临时 措施 ， 而 不 
应 该 将 其 长 期 地 加 入 配置 中 。 





如 开启 了 分 析 器 而 system.profile 集 合并 不 存在 ，MongoDB 会 为 其 建立 一 
个 大 小 为 若干 MB 的 固定 集合 (capped collection) 。 如 希望 分 析 器 运行 
更 长 时 间 ， 可 能 需要 更 大 的 空间 来 记录 更 多 的 操作 。 此 时 可 关闭 分 析 
器 ， 删 除 并 重新 建立 一 个 新 的 名 为 system.profile 的 固定 集合 ， 并 令 其 容 
量 符 合 需 求 。 然 后 在 数据 库 上 重新 启用 分 析 器 。 


17.3 ”计算 空间 消耗 
如 能 得 知 文档 、 索 引 、 人 集合、 数据 库 各 占用 了 多 少 空间 ， 就 可 以 方便 地 


预 留 出 合适 的 磁盘 和 内 存 空 间 。 关 于 计算 工作 集 大 小 的 相关 内 容 请 参见 
第 21 章 。 











17.3.1 文档 


要 查询 文档 占用 的 空间 大 小 ， 最 简单 的 方法 是 在 shell 中 对 文档 使 
用 object .bsonsize() 函 数 。 此 函数 将 返回 该 文档 存储 在 MongoDB 中 时 
占用 的 空间 大 小 。 


例如 ， 我 们 可 以 看 到 ， 将 _id 存 储 为 objectId 类 型 ， 比 存储 为 字符 串 类 


> 0bject,bsonsize({ id:objectId()}) 
22 





> //""+0bjectId() 将 0bjectId 转换 为 字符 串 
> Object.bsonsize({_id:""+0bjectId()}) 
39 


也 可 以 直接 对 集合 中 的 文档 进行 得 询 : 


> Object.bsonsize(db.users.findone()) 


这 一 函数 会 精确 地 告知 文档 在 磁盘 上 占用 的 字 节 数目 。 然 而 这 其 中 并 未 
包括 自动 生成 的 空间 间隔 〈padding) 和 索引 ， 二 者 也 时 常 是 影响 集合 
大 小 的 重要 因素 。 

17.3.2 集合 


stats 国 数 可 用 来 亚 示 一 个 集合 的 信息 : 


> db.boards. stats() 
{ 
"ns™" :; "brains.boards", 


了 
"size" : 32292, 
"avgobjSize"” :; 2691, 
"storageSize" : 270336, 
"numExtents" : 3, 
"nindexes" : 2, 
"lastExtentSize" : 212992, 
"paddingFactor" : 1.0099999999999825, 
"flags" : 1, 


"totalIndexSize" :; 16352, 
"indexSizes" : { 
"id " : 8176, 


"username_1 slug_1" :; 8176 


了 
"OK 时 六 和 








stats 国 数 的 返回 结果 中 首先 是 命名 空间 〈 即 brains.boards) ， 接 下 来 
是 集合 中 文档 的 数目 。 再 接 下 来 的 几 个 字段 与 集合 的 大 小 有 关 。size 的 
值 相当 于 对 此 集合 中 的 所 有 元 素 执行 object.bsonsize()， 再 将 这 些 结果 
相 加 得 到 的 值 ， 即 集合 中 所 有 文档 占有 的 字 节 数 。 将 avgobjsize 〈 平 均 
对 象 大 小 ) 和 count 相 乘 ， 也 能 得 到 size 的 值 。 


与 之 前 提 到 的 一 样 ， 所 有 文档 占用 的 字 节 总 数 并 不 等 于 集合 大 小 ， 集 合 
还 占用 空间 存放 其 他 重要 内 容 ， 即 文档 间 的 间隔 和 索引 信息 。 

而 storagesize 不 仅 包 含 这 些 内 容 ， 还 包含 集合 两 端 预 留 的 未 经 使 用 衬 
间 。 集 合 末 并 总 有 些 空余 空间 ， 以 便 新 文档 能 够 快速 添加 进来 。 


nindexes 是 集合 中 索引 的 数量 。 索 引 直 到 建立 完成 后 才 会 被 算 

在 nindexes 中 ， 也 只 有 在 出 现在 此 列表 后 才 可 以 被 使 用 。 由 于 目前 的 集 
合 还 很 小 ， 所 以 每 个 索引 都 只 有 一 个 “ 桶 ”(bucket) 大 小 (8 KB) 。 通 
第 来 讲 ， 索 引 比 存储 的 数据 量 大 很 多 ， 含 有 很 多 空 亲 空间， 以便 在 增加 
新 入 口 entry) 时 进行 优化 。 使 用 右 平衡 索引 (right-balanced index， 
参见 5.1.1 节 ) 可 将 这 一 空闲 空间 减 至 最 小 。 而 随机 分 布 的 索引 通常 会 有 
509% 左 右 的 空闲 空间 ， 升 序 索引 (ascending-order index) 则 有 10% 的 空 
内 空间 。 


随 痢 集合 的 不 断 增 长 ，stats() 返 回 的 巨大 字 节 数目 可 能 会 变 得 不 易 辨 
识 。 因 此 ， 可 在 使 用 stats 时 传 入 比例 因子 (scale factor) : KB 值 为 
1024，MB 则 为 1024x1024， 依 次 类 推 。 例 如 ， 以 下 命令 会 以 TB 为 单位 


显示 集合 信息 : 









































> db,big,stats(1924*1024*1024*1924) 


17.3.3 ”数据 库 
数据 库 的 stats 函 数 与 集合 的 类 似 ; 


> db.stats() 


"db" : "brains"， 
"collections" : 11, 
"objects" : 1109, 
"avgObjSize" : 299.79440937781783, 
"dataSize" : 332472, 
"storageSize" : 1654784, 
"numExtents" : 15, 
"indexes" :; 11, 
"indexSize" : 114464, 
"fileSize" : 201326592, 
"nsSizeMB" :; 16, 

ok" i 1 


首先 返回 的 是 数据 库 名 称 和 其 中 包含 的 集合 数目 。objects 的 值 是 数据 
库 中 所 有 集合 包含 的 文档 总 数 。 


输出 中 包含 了 有 关 数 据 大 小 的 信息 。filesize 应 该 总 是 最 大 的 ， 即 为 数 
2 的 总 空间 。 该 值 应 等 于 数据 目录 中 所 有 名 为 brains.* 的 文件 
小 总 和 。 


ee a 
该 值 与 filesize 不 符 ， 因 为 filesize 包 含 了 预 分 配 (preallocated) 文 
件 。 例 如 ， 如 果 数 据 目 录 中 已 经 存在 brains.0、brains.1 和 brains.2 文 件 ， 
则 brains.2 会 被 0 填 满 。brains.2 写 入 数据 后 ， 文 件 ”brains.3 会 被 预 分 配 。 
每 个 数据 库 内 应 一 直 存 在 一 个 填充 为 0 的 空 文件 。 该 空 文件 被 写 入 数据 
后 ， 下 一 个 文件 则 会 被 预 分 配 。 因 此 ， 该 空 文件 (以 及 前 面 文件 中 未 被 
使 用 的 部 分 ) 造 成 了 filesize 和 storagesize 间 的 差异 。 


datasize 是 此 数据 库 中 的 数据 所 占用 的 空间 大 小 。 注 意 ， 该 值 并 不 包含 
空闲 列表 (free list) 中 的 空间 ， 但 包含 了 文档 间 的 间隔 。 因 此 该 值 
与 storageSize 值 的 差异 ， 应 为 被 删除 文档 的 大 小 。。 


与 集合 的 stats() 一 样 ，db.stats() 可 接收 一 个 比例 因子 作为 参数 。 

















如 果 对 一 个 不 存在 的 数据 库 使 用 db.stats()， 则 nssizeMB 的 值 为 0。 这 
古 .ns 文件 的 大 小 ， 它 本 质 上 相当 于 数据 库 中 的 内 容 表 。 任 何 存 在 的 数据 
库 均 需 一 个 .ns 文件 。 


记 住 ， 在 一 个 村 已 的 系统 上 列 出 数据 库 信息 会 非常 慢 ， 而 且 会 阻碍 其 他 
操作 。 因 此 应 尽量 避免 此 类 操作 。 





17.4 使 用 mongotop 和 monogostat 


MongoDB 目 带 了 几 个 命令 行 工 具 ， 可 通过 每 隔 几 秒 输出 当前 状态 ， 帮 
助 我 们 判断 数据 库 正在 做 些 什么 。 


mongotop 类 似 于 UNIX 中 的 top 工 具 ， 可 概述 哪个 集合 最 为 党 忙 。 可 通过 
运行 hongotop-locks， 从 而 得 知 每 个 数据 库 的 锁 状 态 。 


mongostat 提 供 有 关 服 务 器 的 信息 。mongostat 默 认 每 秒 输出 一 次 包含 当 
前 状态 的 列表 ， 可 在 命令 行 中 传 入 参数 更 改 时 间 间 隔 。 每 个 字段 都 会 给 
出 和 目 上 一 次 被 输出 以 来 ， 所 对 应 的 活动 发 生 次 数 。 





insert / query /update / delete / getmore / command 


每 种 对 应 操作 的 发 生 次 数 。 


flushes 


mongod 将 数据 刷新 〈flush) 到 磁盘 的 次 数 。 


mapped 
mongod 所 映射 的 内 存 数 量 ， 通 利 约 等 于 数据 目录 的 大 小 。 


VS1IZe 
mongod 正 在 使 用 的 虚拟 内 存 大 小 ， 通 常 为 数据 目录 的 2 倍 大 小 (一 
次 用 于 映射 的 文件 ， 一 次 用 于 日 记 系 统 ) 。 





mongod 正 在 竺 使 用 的 内 存 大 小 ， 通 常 该 值 应 尽量 接近 机 器 的 所 有 内 
年 大 小 


locked db 


在 上 一 个 时 间 片 中 ， 锁 定时 间 最 长 的 数据 库 。 该 百分比 是 根据 数据 
0 0 
如 过 100%。 








idx miss % 

输出 中 最 令 人 困惑 的 字段 名 。 指 有 多 少 索 引 在 访问 中 发 生 了 缺 页 中 
基 (page ”fault) ， 即 索引 入 口 (或 被 搜索 的 索引 内 容 ) 不 在 内 存 
中 ， 使 得 mongod 必 须 到 磁盘 中 进行 读 取 。 





qr|qw 
读 写 操作 的 队列 (queue〉 大 小 ， 即 有 多 少 读 写 操作 被 阻 罕 ， 等 竺 
进行 处 理 。 


ar |aw 


指 活动 客户 端的 数量 ， 即 正在 进行 读 写 操作 的 客户 端 。 


netIn 
通过 网 络 传 输 进来 的 字 节 数 ， 由 MongoDB 进 行 统 计 〔 不 必 和 操 作 
系统 的 统计 相等 ) 。 


NetOut 
通过 网 络 传输 出 的 字 节 数 ， 由 MongoDB 进 行 统计 。 


ee conn 


此 服务 器 打开 的 连接 数 ， 包 括 输 入 和 输出 连接 。 


@ 七 Ime 


指 以 上 统计 信息 所 用 时 间 。 


可 在 副本 集 或 分 片 集群 上 运行 mongostat。 如 使 用 --discover 选 项 ， 
mongostat 会 尝试 在 初始 连接 的 成 员 中 寻找 副本 集 或 分 片 集群 中 的 所 有 成 
员 ， 每 台 服 务 嚣 也 会 每 秒针 对 每 个 成 员 输 出 一 行 信息 。 对 于 较 大 集群 而 
言 ， 该 选项 会 使 数据 和 输出 过 多 过 快 而 不 易于 管理 ， 但 于 较 小 集群 而 言 却 
很 实用 ， 也 可 使 用 一 些 工 具 将 其 输出 的 信息 转换 为 更 可 读 的 形式 。 


要 想 获 得 数据 库 中 正在 进行 的 操作 快照 ，mongostat 是 很 好 的 选择 ， 但 如 
果 要 对 数据 库 进 行 长 期 的 监控 ， 类 似 MMS 的 工具 可 能 更 为 适合 (参见 
第 21 章 ) 。 











第 18 章 ”数据 管理 


本 章 将 学 习 如 何 管理 集合 与 数据 库 。 通 常 来 讲 ， 这 部 分 内 容 并 非 每 天 都 
能 用 到 ， 但 对 于 应 用 性 能 却 无 比重 要 ， 具 体 包 括 了 : 





。 配置 用 户 账 户 和 里 份 验证 ; 

。 在 正在 运行 的 系统 中 建立 索引 

。 对 新 服务 器 进行 “ 预 热 ”， 以 便 快 速 上 线 ; 
。 整理 数据 文件 中 的 雁 乒 ; 

。 手动 预 分 配 新 的 数据 文件 。 


18.1 配置 身份 验证 


作为 系统 管理 员 ， 首 要 任务 之 一 束 是 确保 系统 安全 。 确 保 MongoDB 安 
全 的 最 好 办 法 ， 即 在 一 个 可 信 环 境 中 和 运行， 确保 只 有 可 信 的 机 器 能 够 连 
接 到 服务 器 。 也 就 是 说 ， 即 使 是 在 以 任务 为 颗粒 的 粗 粒 度 〈coarse- 
grained) 访问 方式 中 ，MongoDB 也 文 持 针对 单个 连接 进行 身份 验证 。 






可 登陆 MongoDB 企 业 版 (http:/bitjy15nFgI3) 查看 更 
多 复杂 的 安全 特性 。 在 http://docs.mongodb.org/manual/security 中 可 
找到 最 新 的 认证 和 授权 信息 。 


18.1.1 身份 验证 基本 原理 


MongoDB 中 ， 每 个 数据 库 的 实例 都 可 拥有 任意 多 个 用 户 。 安 全 检查 开 
局 后 ， 只 有 通过 身份 验 证 的 用 户 才 能 够 进行 数据 的 读 写 操作 。 


admin (管理 员 ) 和 ]ocal (本 地 ) 是 两 个 特殊 的 数据 库 ， 它 们 当中 的 用 
户 可 对 任何 数据 库 进 行 操作 。 这 两 个 数据 库 中 的 用 户 可 被 看 作 是 超级 用 
户 。 经 认证 后 ， 管 理 员 用 户 可 对 任何 数据 库 进行 读 写 ， 同 时 能 镜 执 行 某 


些 只 有 管理 员 才 能 执行 的 命令 ， 如 1listpatabases 和 和 shutdown。 




















己 开 局 安 全 检查 的 数据 库 在 被 启动 前 ， 应 至 少 添加 一 个 管理 员 用 户 。 我 
们 来 看 一 个 小 例子 ， 假 设 在 没有 开局 安全 检查 的 前 提 下 ， 已 在 shell 中 连 
接 到 了 服务 器 : 

> use admin 


switched to db admin 
> db.addUser ("root", "abcd"); 





"User™" :; "root" 
,readonly ， false 
"pwd" : "1agflc3c3aa1d592f499a2addc559383" 


} 

> use test 

switched to db test 

> db.addUser("test_ user", "efgh"); 


{ 

"User" : "test_user", 

"readonly" : false, 

"pwd" :; "6076b96fc3fe6002c810268702646eec" 
> db.addUser("read user", "ijkil", true); 

"UsSer" : "read_ user" 

“readon yy. : true, 

"pwd" :; "f497e180c9dc0655292fee5893c162f1" 


在 以 上 操作 中 ， 我 们 增加 了 一 名 管理 员 用 户 root， 又 在 名 为 test 的 数据 
库 中 增加 了 两 个 用 户 。 其 中 名 为 read_user 的 用 户 只 有 读 权 限 而 没有 写 
权限 。 在 shell 中 用 adduser 创 建 用 户 时 ， 将 第 三 个 参数 readOnly 设 置 

为 true， 即 可 创建 一 个 只 读 权 限 用 户 。 运行 adduser 时 ， 必须 拥有 相应 
数据 库 的 写 入 权限 。 这 个 例子 中 由 于 我 们 还 没有 启用 安全 检查 ， 因 此 可 
在 任 一 数据 库 上 运行 adduser。 





NM S, 








避 除 添加 新 用 户外 ，adduser 命 令 还 可 用 来 更 改 用 户 密码 
或 只 读 权 限 状 态 。 只 需 在 运行 adduser 时 ， 将 用 户 名 和 新 密码 或 只 
读 权限 设置 作为 参数 即 可 。 


现在 重 局 服务 器 ， 这 次 在 命令 行 选项 中 加 上 --auth 参 数 ， 以 局 用 安全 检 
但。 局 用 后 ， 在 shell 中 重新 连接 并 尝试 以 下 操作 : 


> use test 








Switched to db test 
> db.test.find(); 


error: { "$err" : "unauthorized for db [test] lock type: -1 " } 
> db.auth("read user", "ijkl1"); 
1 


> db.test.find(); 

{ "id" : ObjectId("4bb607f53e8424663ea6848a"), "x" : 1} 
> db.test.insert({"x" : 2}); 

unauthorized 

> db.auth("test_user", "efgh"); 


1 
> db.test.insert({"x": 2}); 

> db.test.find(); 

{ "id" : 0bjectId("4bb0907f53e8424663ea6848a" )， "x" 
{ 

> 

S 


: 工 】 

"” id” : ObjectId("4bb0088cbe17157d7b9cac07"), "x" : 2 } 
Show dbs 
sert: assert failed : listDatabases failed:{ 

"assertion" : "unauthorized for db [admin] lock type: 1 
Fe 

"errmsg" : "db assertion failure", 

Tok" : 0 


> use admin 
switched to db admin 
> db.auth("root", "abcd"); 


1 

> show dbs 
admin 
local 

test 


在 建立 连接 之 初 ， 无 法 在 名 为 test 的 数据 库 中 进行 任何 读 写 操作 。 以 用 
户 read_user 的 身份 通过 验证 后 ， 可 运行 简单 的 find 指 令 。 演 试 写 入 数 
据 时 ， 却 因 没 有 权限 而 再 次 操作 失败 。 用 户 test_user 在 创建 时 并 没有 
被 设 定 为 只 读 用 户 ， 因 此 可 正常 进行 读 写 操作 。 但 用 户 test_user 并 非 
管理 员 用 户 ， 因 此 不 能 通过 执行 show dbs 指 令 来 列 出 所 有 数据 库 。 以 上 
操作 中 的 最 后 一 步 是 管理 员 用 户 root 的 身份 验证 ，root 可 对 任 一 数据 库 
进行 操作 。 

18.1.2 ”配置 身份 验证 

司 用 身份 验证 后 ， 客 户 端 必须 登录 才能 进行 读 写 。 然 和 而， 在 MongoDB 


中 有 一 点 值得 注意 : 在 admin 数 据 库 中 建立 用 户 前 ， 服 务 器 上 的 ”本 
地 “客户 并 可 对 数据 库 进行 读 写 。 


一 般 情 况 下 这 不 是 问题 ， 正 第 新 建 管理 员 用 户 并 进行 号 份 验证 即 可 。 唯 
一 的 例外 情况 则 与 分 片 有 关 。 分 片 时 ， 数 据 库 admin 会 被 保存 在 配置 服 
务 器 (config server) 上 ， 所 以 分 片 中 的 ”mongod 甚 至 并 不 知道 它 的 存 























在 。 因 此 ， 在 它们 看 来 ， 它 们 虽然 开启 了 壬 份 验证 但 却 不 存在 管理 员 用 
fs 分 片 中 会 允许 一 个 本 地 的 (local) 客户 端 无 需 身 份 验证 便 可 
读 写 数据 


希望 这 不 会 成 为 一 个 问题 ， 将 网 络 配置 为 只 允许 客户 端 访 问 mongos 进 程 
即 可 。 不 过 ， 如 担心 客户 端 在 分 斤 的 本 地 上 运行 ， 不 通过 mongos 进 程 而 
直接 连接 到 分 片 的 话 ， 可 在 分 厂 中 添加 管理 员 用 户 。 


注意 ， 我 们 并 不 想 让 分 片 集群 知道 这 些 管 理 员 用 户 的 存在 ， 0 
在 了 一 个 admin 数 据 库 。 在 分 片上 建立 的 admin 数 据 库 仅 供 我 们 使 用 。 
人 可 连接 到 每 个 分 片 的 主 节 点 ， 然后 运行 adduscrO 画 





> db.addUser("someUser", "theirPassword") 


应 保证 新 建 用 户 的 副本 集 契 作 为 集 格 中 的 分 片 存在 的 。 如 果 新 建 了 管理 
员 用 户 ， 并 尝试 使 用 ”addshard 命 令 将 mongod 作 为 分 片 加 入 集群 ， 会 发 
现 这 一 命令 无 法 执行 〈 因 为 集群 中 已 经 存在 了 名 为 admin 的 数据 库 ) 。 


18.1.3 身份 验证 的 工作 原理 


数据 库 中 的 用 户 是 作为 文 梯 钻 储存 在 其 syste.users 集 合 中 的 。 这 种 用 
0 岂 的 文档 3 sk : Username, readonly : true, 
: password hash}。 其 中 password hash 是 基于 username 和 密码 生成 


的 元 值 。 


了 解 了 用 户 身 份 信息 的 存储 位置 与 方法 后 ， 可 方便 地 对 其 进行 管理 。 例 
如 ， 要 删除 一 个 用 户 ， 只 需 从 system.users 集 合 中 删除 这 一 用 户 的 文档 即 
可 。 


> db.auth("test_ user", "efgh"); 
1 











> db. Sytem Users. Se user™" : "test_user"}); 
> db.auth("test_ user", "efgh"),; 
0 


用 户 进行 身份 验证 时 ， 服务 器 可 通过 绑 定 执行 autnenticate 命 后 作 令 的 连 
接 ， 跟踪 映 份 验证 。 这 意味 着 只 要 驱动 程序 或 其 他 工具 使 用 了 连接 池 或 
遇 到 故障 而 切换 到 另 一 节点 ， 已 经 过 号 份 验证 的 用 户 也 需 在 新 的 连接 上 








重新 进行 认证 。 这 一 操作 应 由 驱动 程序 在 后 台 进 行 处 理 。 
18.2 ”建立 和 删除 索引 


本 书 第 5 革 介 绍 了 用 于 建立 索引 的 命令 ， 但 没有 深入 介绍 这 些 命令 的 运 
0 
建 并 索引 。 


建立 索引 需 MongoDB 查 找 集合 中 每 一 个 文档 内 被 索引 的 字段 (或 正 要 
建立 索引 的 字段 ) ， 然 后 对 查找 到 的 值 进行 排序 。 不 出 所 料 ， 随 着 集合 
体积 的 增长 ， 该 操作 消耗 非常 大 。 因 此 ， 建 立 家 引 时 ， 应 使 用 对 生产 服 
务 器 影响 最 小 的 方式 。 


18.2.1 在 独立 的 服务 器 上 建立 索引 
在 独立 的 服务 器 上 ， 可 在 空间 时 间 于 后 台 建 并 索引 。 除 此 之 外 ， 没 有 什 
么 更 好 的 办 法 来 减轻 建立 索引 所 需 的 性 能 开销 。 在 后 台 建 立 索 引 ， 可 利 


用 background: true 参 数 运 行 ensureIndex 命 令 : 











> db.foo.ensureIndex({"someField" : 1}, {"background" : true}) 


任何 类 型 的 索引 均 可 在 后 台 完 成 建 这 。 


在 前 台 建 立 索 引 要 比 在 后 台 建 立 索 引 耗 时 少 ， 但 在 索引 建立 期 间 会 锁定 
数据 库 ， 从 而 导致 其 他 操作 无 法 进行 数据 读 写 。 而 后 台 在 建立 索引 期 
间 ， 则 会 定期 释放 写 锁 ， 从 而 保证 其 他 操作 的 运行 。 这 意味 着 后 合 建立 
索引 耗 时 更 长 ， 盛 其 是 在 频 索 进行 写 入 的 服务 器 上 。 但 后 台 服 务 器 在 建 
立 索 引 期 间 ， 可 继续 为 其 他 客 尸 端 提 供 服务 。 


18.2.2 ”在 副本 集 上 建立 索引 


在 副本 集 上 建立 索引 最 简单 的 方式 ， 即 在 主 节点 中 建立 索引 ， 然 后 等 待 
其 被 复制 到 其 他 备份 节点 。 在 较 小 的 集合 中 ， 这 一 操作 不 会 造成 太 大 的 


影响 。 

如 集合 较 大 ， 则 会 出 现 所 有 备份 节点 同时 开始 建立 索引 的 情况 。 突 然 间 
所 有 备份 节点 都 无 法 和 被 客户 端 读 取 了 ， 同 时 可 能 也 无 法 及 时 进行 同步 复 
制 。 因 此 ， 对 于 较 大 的 集合 ， 推 荐 采用 的 方式 是 : 








“RH 

. 将 其 作为 独立 的 节点 局 动 ， 如 第 6 草 描 述 的 那样 ; 
在 这 一 服务 器 上 建立 索引 ; 

. 重新 将 其 作为 成 员 加 入 副本 集 ; 

. 对 每 个 备份 节点 执行 同样 的 操作 。 


完成 以 上 操作 后 ， 只 剩 主 市 点 还 没有 建 并 索引 。 现 在 有 两 种 选择 : 











。 于 后 台 在 主 节 点 中 建立 索引 《这 会 对 主 节 点 的 性 能 造成 压力 ) ; 
。 关闭 主 节 点 ， 并 执行 以 上 步骤 1~4， 像 在 次 成 员 中 一 样 ， 在 主 节 点 
上 建 并 索引 。 该 方式 需 数据 库 停 运 一 次 ， 应 权衡 利 次 进行 选择 。 


也 可 以 使 用 这 种 隔离 创建 技术 ， 在 没有 被 配置 为 建立 索引 的 副本 集 内 的 
成 员 上 建立 索引 ， 即 使 用 了 ”buildIndexes: false 选 项 。 方 法 是 将 其 作 
为 独立 服务 器 启动 ， 建 立 索 引 ， 并 重新 加 入 副本 集 。 


如 果 由 于 茶 种 原因 无 法 使 用 以 上 方法 ， 则 需 计 划 在 空 症 时 间 〈 晚 上 、 假 
期 、 周 末 等 ) 来 建立 新 的 索引 。 


18.2.3 ”在 分 片 集群 上 建立 索引 


在 分 片 集群 上 建立 索引 ， 与 在 副本 集中 建立 索引 的 步骤 相同 ， 不 过 需要 
在 每 个 分 片上 分 别 建立 一 次 。 


首先 ， 关 财 平衡 器 。 然 后 按照 上 一 节 中 的 步骤 ， 依 次 在 每 一 个 分 片 中 进 
行 操作 ， 即 把 每 个 分 片 当 作 一 个 单独 的 副本 集 。 最 后 ， 通 过 mongos 运 
行 ensureIndex， 并 重新 启动 平衡 器 。 


只 有 在 现存 分 片 中 添加 索引 时 才 需 这 样 做 ， 新 的 分 片 会 在 开始 接收 集合 
数据 块 时 抓 取 集合 中 的 索引 。 


18.2.4 ”删除 索引 
如 不 再 需要 某 索 引 ， 可 使 用 dropIndexes 命 令 并 指定 索引 名 来 删除 索 


引 。 仁 询 system.indexes 集 合 找 出 索引 名 ， 即 使 是 自动 生成 的 索引 名 ， 在 
不 同 驱动 右 间 也 会 存在 些许 差异 : 























> db.runCommand({"dropIndexes" : "foo", "index" : "alphabet"}) 


只 需 将 "*" 作 为 index 的 值 ， 即 可 删除 一 个 集合 中 的 所 有 索引 : 


> db.runCommand({"dropIndexes" : "foo"，"index"”: "*"}) 


但 这 种 方法 无 法 删除 _id 索 引 。 只 有 删除 整个 集合 才能 删除 掉 该 索引 。 
人 
剃 增 加 。 


18.2.5 ”注意 内 存 溢出 杀手 





Linux 的 内 存 洲 出 杀手 (OOM Killer，out-of-memory killer) 人 负责 终止 使 
用 过 多 内 存 的 进程 。 考 虑 到 MongoDB 使 用 内 存 的 方式 ， 除 了 在 建立 索 
引 的 情况 下 ， 它 通常 不 会 过 到 这 种 问题 。 如 在 建立 索引 时 ，mongod 突 
然 消 失 ， 请 检查 /var/log/messages 文 件 ， 其 中 记录 了 OOM Killer 的 输出 信 
上 县。 在 后 台 建 立 索 引 或 增加 交换 (swap〉 空间 可 避免 此 类 情况 。 如 拥有 
机 器 的 管理 员 权 限 ， 可 将 MongoDB 设 置 为 不 可 被 OOM Killer 终 止 。 更 多 
信息 请 参见 23.5.2 节 。 


18.3” 预 热 数 据 


午 局 机 器 或 局 动 一 台新 的 服务 器 ， 会 耗费 一 段 时 间 供 MongoDB 将 所 有 
所 需 数据 从 磁盘 中 载 入 内 存 。 如 对 于 性 能 的 需求 很 高 ， 要 求 数 据 必 须 出 
目 内 存 中 ， 则 将 新 服务 器 上 线 ， 并 等 竺 应 用 程序 载 入 所 有 所 需 数据 ， 这 
会 是 一 项 艰巨 的 工作 。 


有 几 种 方式 可 在 服务 器 正式 上 线 之 前 将 数据 载 入 内 存 ， 以 避免 在 应 用 运 
行 时 带 来 麻烦 。 





NM SN， 
4 





一 4 重启 MongoDB 会 改变 内 存 中 的 内 容 。 内 存 是 由 操作 系 
统 进行 管理 的 ， 而 操作 系统 不 会 将 数据 清除 出 内 存 ， 除 非 有 其 他 程 
序 需 要 使 用 此 段 内 存 空间 。 因 此 ， 如 果 mongod 进 程 需要 重启 ， 应 





不 会 影响 内 存 中 的 数据 。〔 然 而 ，mongod 会 报告 较 低 的 常 驻 内 存 
值 ， 直 到 它 有 机 会 向 操作 系统 请 求 所 需 的 数据 。) 


18.3.1 将 数据 库 移 至 内 存 


如 需 将 数据 库 移 至 内 存 中 ， 可 使 用 UNIX 中 的 dd 工具 ， 从 而 在 局 动 
mongod 前 载 入 数据 文件 : 
$ Bo file in /data/db/brains.* 


> dd if=$file of=/dev/null 
> done 


将 brains 答 换 为 需 载 入 的 数据 库 名 。 


将 /data/db/brains. * 蔡 换 为 /data/db/* 可 将 整个 数据 目录 〈 即 所 有 数据 
库 ) 载 入 内 存 〈 假 设 内 存 容 量 足 够 的 话 ) 。 如 将 一 个 或 一 组 数据 库 载 入 
内 存 ， 需 占用 的 内 存 又 要 比 实际 内 存 大 的 活 ， 则 其 中 一 些 数据 会 立即 逢 
清除 出 内 存 。 在 这 种 情况 下 ， 可 使 用 下 一 节 中 讲 到 的 几 种 方法 ， 以 而 将 
特定 的 数据 载 入 内 存 中 。 


mongod 司 动 时 ， 会 问 操 作 系统 请 求 数据 文件 。 如 有 果 操 作 系 统 发 现 内 存 
中 已 经 存在 了 这 些 数 据 文件 ， 束 可 以 立即 访问 此 mongod。 


然而 ， 只 有 在 整个 数据 库 可 以 装 入 内 存 中 时 ， 这 一 技术 才能 发 挥 作用 。 
Ei 可 使 用 以 下 介 绍 的 技术 ， 宋 进 行 更 多 名 粒度 的 Cfine-grained) 预 








18.3.2 ”将 集合 移 至 内 存 


MongoDB 提 供 了 touch 命 令 来 预 热 数据 。 启 动 mongod (也 许 在 男 一 个 并 
口上 ， 或 关闭 防火 场 对 它 的 限制 ) ， 对 一 个 集合 使 用 touch 命 令 ， 从 而 
将 其 载 入 内 存 : 


> db.runCommand({"touch" : "logs", "data" : true, "index" : true}) 


这 一 操作 会 将 logs 集 合 中 的 所 有 文档 和 索引 载 入 内 存 。 可 指定 内 存 只 载 
入 文档 或 只 载 入 索引 。 touch 操 作 结 束 后 ， 可 允许 应 用 访问 MongoDB。 


然而 ， 一 整个 集合 〈 即 使 只 有 索引 ) 依然 可 占用 很 大 的 空间 。 人 例如， 应 
用 可 能 只 需要 一 个 索引 或 一 小 部 分 文档 在 内 存 中 。 在 这 种 情况 下 ， 需 对 
数据 进行 目 定义 预 热 。 


18.3.3” 自 定义 预 热 


如 需 进 行 更 复杂 的 预 热 ， 可 目 定 义 预 热 脚本 。 以 下 是 一 些 和 常见 的 预 热 需 
求 和 解决 方案 。 





。 加 载 一 个 特定 的 索引 


假设 索引 必须 处 于 内 存 中 ， 如 {f"friends" : 1，"date" : 1}。 可 进行 
履 盖 查询 (covered query， 参 见 5.1.2 节 ) ， 从 而 将 该 索引 载 入 内 存 中 : 


> db.users.find({}, {"_id" : 0, "friends" : 1, "date" :; 1}). 
.. hint({"friends" : 1, "date" : 1}). explain( ) 


以 上 explain 命 令 会 强制 mongod 遍 历 所 有 结果 。 必 须 通过 find 命 令 的 第 

二 个 参数 指定 只 返回 被 索引 字段 ， 人 否则 这 一 人 
入 内 存 ( 也 许 这 束 是 我 们 想 要 的 结果 ， 但 应 注意 这 一 点) 。 注 意 ， 该 操 
作 总 是 会 把 无 法 被 覆盖 〈covered) 的 文档 和 索引 加 载 入 内 存 ， 如 多 值 索 
引 (multikey index) 。 








。 加 载 最 近 更 新 的 文档 


如 在 更 新 文档 时 同时 更 新 了 日 期 字段 上 的 索引 ， 可 通过 查询 最 近日 期 来 
加 载 最 近 更 新 的 文档 。 


如 没有 日 期 字段 上 的 索引 ， 查 询 后 会 将 集合 中 的 所 有 文档 加 载 入 内 存 ， 
所 以 就 不 必 使 用 此 方法 了 。 在 缺少 日 期 字段 的 情况 下 ， 如 主要 关心 的 是 
最 近 插 入 的 文档 ， 可 使 用 _id 字 段 作 为 瞪 代 参见 下 列 内 容 〉。 











。 加 载 最 近 创 建 的 文档 


如 _id 字 段 使 用 objectIdsIf 类 型 ， 则 可 利用 最 近 创 建文 档 内 的 时 间 戳 进 
行文 档 查 询 。 如 布 望 查找 上 星期 建立 的 所 有 文档 ， 可 建立 一 个 比 所 有 要 





查找 的 文档 建立 时 间 都 要 早 的 _id: 


> lastWeek = (new Date(year, month, day)).getTime()/1000 
1348113600 


将 year、month 和 date 进 行 适当 蔡 换 ， 返 回 的 结果 是 以 秒 为 单位 的 日 期 
值 。 现 在 需要 使 用 此 日 期 建立 一 个 objectId 类 型 的 值 。 首 先 ， 将 其 转换 
成 一 个 十 六 进 制 字符 串 ， 然 后 在 后 面 加 上 16 个 0: 

> hexSecs = lastweek.toString(16) 

505a94c0 


> minId = ObjectId(hexSecs+"0000000000000000") 
ObjectId("505a94c00000000000000000") 


现在 只 需 对 其 进行 俘 询 : 


> db.logs.find({"_id" : {"$gt" : minId}}).explain() 


0 0 0 
对 ) 。 


。 重 放 应 用 使 用 记录 


MongoDB 提 供 有 名 为 诊断 日 志 (diaglog，diagnostic log) 的 功能 来 记录 
和 回放 操作 流水 。 启 用 诊断 日 志 会 造成 性 能 损失 ， 所 以 最 好 通过 临时 使 
用 的 方式 来 获得 一 份 “ 有 代表 性 ”的 操作 流水 。 在 mongo shell 中 运行 以 下 
命令 来 记录 操作 流水 : 


> db.adminCommand({"diagLogging" : 2}) 





其 中 参数 值 为 2 意味 着 记录 读 取 操作 。 该 值 为 1 时 会 记录 写 入 操作 ， 为 3 
时 读 写 都 会 进行 记录 (默认 值 为 0， 意 味 着 不 进行 记录 ) 。 我 们 可 能 不 
人 
额外 写 入 。 


现在 让 mongod 运 行 所 需 的 时 间 并 向 其 发 送 请 求 ， 从 而 令 诊断 日 志 记 录 
操作 流水 。 读 取 操作 会 被 存放 在 诊断 日 志 生 成 的 文件 中 ， 该 文件 位 于 数 





据 目 录 下 。 完 成 后 将 diagLogging 的 值 重 设 为 0: 


> db.adminCommand({"diagLogging" : 0}) 


要 想 使 用 诊断 文件 ， 可 从 该 文件 所 在 的 服务 器 局 动 新 的 服务 器 ， 运 行 以 


下 


$ nc hostname 27017 


按 需 对 其 中 的 IP 地 址 、 端 口 和 数据 目录 进行 蔡 换 。 以 上 命令 会 将 诊断 文 
件 中 记录 的 操作 作为 普通 请 求 发 送 到 hostname:27017 处 。 


注意 ， 诊 断 日 志 会 记录 开局 诊断 日 志 的 命令 ， 所 以 ， 重 放 完 成 后 ， 需 登 
人 
和 吕 


这 些 技术 可 结合 起 来 使 用 。 例 如 ， 可 在 重 放 诊 断 记 录 的 同时 加 载 若 干 索 
引 ; 如 果 没 有 遇 到 磁盘 ”IO 瓶颈 的 话 ， 也 可 以 同时 进行 这 些 操作 ;或 者 
也 可 以 通过 多 个 shell 或 者 startParallelshell (启动 并 行 shell) 命令 
(如 果 shell 在 mongod 本 地 的 话 ) 来 进行 操作 : 





> p1 = startPparallelShell("db.find({}, {x:1}).hint({x:1}).explain()", port) 
> p2 = startParallelShell("db.find({}, {y:1}).hint({y:1}).explain()", port) 
> p3 = startParallelShell("db.find({}, {z:1}).hint({z:1}).explain()", port) 


将 port 蔡 换 为 mongod 所 在 的 端口 值 。 
18.4 ”压缩 数据 


MongoDB 会 占用 大 量 的 磁盘 空间 。 有 时 ， 大 量 数据 被 删除 或 更 新 后 ， 
会 在 集合 中 产生 雁 片 。 如 数据 文件 中 有 很 多 空 亲 空间 ， 但 由 于 这 些 独立 
的 空闲 区 块 过 小 ， 从 而 使 得 MongoDB 无 法 对 其 进行 重新 利用 时 ， 就 产 
生 了 碎片 。 在 这 种 情况 下 ， 会 在 日 志 中 看 到 类 似 如 下 信息 : 


Fri Oct 7 06:15:03 [conn2] info DFM::findAll(): extent 0:3000 was empty, 
skipping ahead. ns:bar,foo 























该 信息 本 身 是 无 害 的 。 然 而 ， 这 意味 痢 茶 一 整个 区 段 〈extent) 中 不 包 
含 任何 文档 。 为 消除 空 区 段 ， 并 高 效 重 整 集合 ， 可 使 用 compact 命 令 : 


> db.runCommand({"compact" : "collName"}) 





压缩 操作 会 消耗 大 量 资源 ， 不 应 在 mongod 向 客户 端 提供 服务 时 计划 压 
缩 操作 。 推 荐 做 法 类 似 于 建立 索引 时 的 做 法 ， 即 在 每 个 备份 节点 中 对 数 
据 执 行 压缩 操作 ， 然 后 关闭 主 节 点 ， 进 行 最 后 的 压缩 操作 。 

在 一 个 备份 节点 中 运行 压缩 操作 ， 会 使 其 进入 恢复 状态 (recovering 
state) ， 即 它 会 对 读 取 请 求 返回 错误 ， 亦 无 法 作为 一 个 同步 源 。 压 缩 操 
作 结 束 后 ， 其 状态 会 重新 变 为 备份 节点 (secondary state) 。 


压缩 操作 会 将 文档 尽 可 能 地 安排 在 一 起 ， 文 档 间 的 间 隅 参数 默认 为 1。 
如 需 更 大 的 间隔 参数 ， 可 使 用 额外 的 参数 来 指定 它 : 


> db.runCommand({"compact" : "collName", "paddingFactor" : 1.5}) 











数 会 重新 返回 之 前 的 值 。 


压缩 操作 并 不 会 减少 集合 占用 的 磁盘 空间 ， 该 操作 只 是 将 所 有 文档 都 安 
排 在 集合 的 开始 部 分 ， 这 样 当 集合 继续 增 大 时 就 可 以 使 用 后 面 的 空余 部 
分 。 因 此 ， 压 缩 操 作 只 是 在 磁盘 空间 不 足 时 的 临时 措施 ， 它 不 会 减少 
MongoDB 所 使 用 的 磁盘 空间 大 小 ， 但 可 使 MongoDB 不 再 需要 分 配 新 的 


空间 。 


可 通过 运行 repair (修复 ) 命令 来 回收 磁盘 空间 。repair 命 令 会 对 所 有 
数据 进行 复制 ， 所 以 必须 拥有 和 当前 数据 文件 一 样 大 小 的 空余 磁盘 空 
间 。 这 时 和 常 是 个 大 问题 ， 因 为 运行 repair 的 最 第 见 原 因 就 是 机 器 的 磁盘 
空间 不 多 了 。 然 而 ， 如 能 挂 载 其 他 磁 往 ， 则 可 指定 一 个 修复 路 径 ， 

即 repair 命令 复制 文件 时 所 使 用 的 目录 《新 安装 的 驱动 ) 。 


由 于 repair 操 作 会 完全 复制 所 有 数据 ， 因 此 可 随时 中 断 该 操作 而 不 影响 
原始 数据 集 。 如 在 repair 操 作 的 过 程 中 遇 到 问题 ， 可 删除 repair 产 生 的 
临时 文件 而 不 会 影响 到 数据 文件 。 

















在 局 动 mongod 时 使 用 - -repair 选 项 〈 如 需要 ， 还 可 使 用 - -repairpath 选 
项 ) 来 进行 修复 。 


可 以 在 shell 中 调用 db.repairDatabase() 来 修复 数据 库 。 

18.5 ”移动 集合 

可 使 用 renamecollection 命 令 来 重合 名 和 集合。 这 一 命令 无 法 在 数据 库 间 
移动 集合 ， 但 可 更 改 集 合 名 。 无 论 重 命名 的 集合 大 小 ， 该 操作 都 基本 上 


是 瞬间 完成 的 。 在 繁忙 的 系统 上 ， 这 一 操作 会 耗费 几 秒 钟 ， 但 在 生产 环 
境 中 运行 可 不 用 担心 性 能 的 消耗 。 


> db.sourceColl.renameCollection("newName") 





执行 这 一 命令 时 可 传 入 第 二 个 参数 ， 从 而 决定 当 名 为 newName 的 集合 已 
经 存在 时 应 如 何 处 理 。 该 参数 为 true 时 ， 会 删除 名 为 newName 的 集合 ; 
为 false 时 ， 则 会 抛 出 错误 。 后 者 是 这 一 参数 的 默认 值 。 


要 想 在 数据 库 间 移动 集合 ， 必 须 进 行 转 储 〈dump) 和 恢复 (restore) 操 
作 ， 或 手动 复制 集合 中 的 文档 (使 用 find 命 令 ， 和 遍历 集 合 中 的 所 有 文 
档 ， 从 而 将 其 插入 到 新 的 数据 库 中 ) 。 


可 使 用 clonecollection 命 令 将 一 个 集合 移动 到 男 一 个 不 同 的 mongod 
中 。 





> db.runCommand({"cloneCollection" : "collName", "from" : "hostname:27017"}) 


无 法 使 用 clonecollection 命 令 在 mongod 中 移动 集合 ， 这 一 命令 只 能 用 
于 服务 器 间 的 集合 移动 。 


18.6” 预 分 配 数 据 文 件 


如 知道 mongod 具 体 需 要 哪些 数据 文件 ， 可 运行 以 下 脚本 ， 从 而 在 应 用 
上 线 前 预 分 配 数据 文件 。 如 能 确定 数据 库 和 操作 记录 的 大 小 ， 至 少 是 一 
段 时 间 以 内 的 大 小 ， 这 一 方法 则 尤其 有 用 。 

#!/bin/bash 


# 确保 传 入 数据 库 名 








if test $# -lt 2 || test $# -gt 3 
then 

echo "$0 <db> <number-of-files>" 
fi 


db=$1 
num=$2 


for i in {0..$num} 
do 

echo "Preallocating $db.$i" 

head -c 2146435072 /dev/zero > $db.$i 
done 





将 以 上 代码 存 入 一 个 文件 中 《比如 说 preallocate 文 件 ) ， 并 将 文件 设置 
为 可 执行 文件 。 切 换 至 数据 目录 ， 按 需 执 行 以 下 脚本 ， 分 配 数据 文件 : 


$# create test.0-test.100 
$ preallocate test 100 

$ 

$# create local.0-local.4 
$ preallocate local 4 





数据 库 局 动 后 首次 访问 数据 文件 时 ， 不 能 对 其 中 的 任何 文件 进行 删除 。 
例如 ， 如 分 配 数据 文件 test.0~test.100， 而 启动 数据 库 后 却 发 现 只 需 使 用 
test.0~test.20， 这 时 我 们 不 应 删除 test.21~test.100 的 文件 。 只 要 MongoDB 
意识 到 这 些 文件 的 存在 ， 文 件 删除 后 则 会 导致 MongoDB 发 生 异 常 。 


第 19 章 ”持久 性 


持久 性 〈durability) 是 操作 被 提交 后 可 持久 保存 在 数据 库 中 的 保证 。 从 
完全 没有 保障 到 完全 保证 持久 性 ，MongoDB 可 高 度 配置 与 持久 性 相关 
的 设 定 。 本 章 内 容 包括 : 


MongoDB 如 何 保证 持久 性 ; 

如 何 配 置 应 用 和 服务 器 ， 从 而 获得 所 需 的 持久 性 级 别 ; 
运行 时 关闭 日 记 系 统 〈(journaling)〉 可 能 帝 来 的 问题 ; 
MongoDB 不 能 保证 的 事项 。 


如 磁盘 和 软件 运行 正常 ， 则 MongoDB 能 够 在 系统 骨 淡 或 强制 关闭 后 ， 
确保 数据 的 完整 性 。 


注 章 ， 关 系 型 数据 库 通 常 使 用 持久 性 一 词 来 描述 数据 库 事务 
(transaction〉 的 持久 保存 。 由 于 MongoDB 并 不 文 持 事务 ， 因 此 该 词义 
在 这 里 有 些许 不 同 。 


19.1 日记 系统 的 用 途 


MongoDB 会 在 进行 写 入 时 建立 一 条 日 志 (journal) ， 日 记 中 包含 了 此 次 
写 入 操作 具体 更 改 的 磁盘 地 址 和 字 节 。 因 此 ， 一 旦 服务 器 突然 停机 ， 可 
在 司 动 时 对 日 记 进 行 重 放 (replay) ， 从 而 重新 执行 那些 停机 前 没 能 够 
刷新 “fush) 到 磁盘 的 写 入 操作 。 


数据 文件 默认 每 60 秒 刷新 到 磁盘 一 次 ， 因 此 日 记 文 件 只 需 记录 约 60 秒 的 
写 入 数据 。 日 记 系 统 为 此 预先 分 配 了 若干 个 空 文件 ， 这 些 文件 存放 
在 /data/db/journal 目 录 中 ， 文 件 名 为 j.0、_j.1 等 。 











长 时 间 运 行 MongoDB 后 ， 日 记 目 录 中 会 出 现 类 似 。 _j.6217、_j.6218 和 
_j.6219 的 文件 。 这 些 是 当前 的 日 记 文 件 。 文 件 名 中 的 数字 会 随 着 
MongoDB 运 行 时 间 的 增长 而 增 大 。 数 据 库 正常 关闭 后 ， 日 记 文件 则 会 
被 清除 (因为 正常 关闭 后 就 不 再 需要 这 些 文 件 了 ) 。 


如 发 生 系统 月 尝 ， 或 使 用 kill -9 命令 强制 终止 数据 库 的 运行 ，mongod 
会 在 局 动 时 重 放 日 记 文件 ， 同 时 会 显示 出 大 量 的 校 验 信息 。 这 些 信息 见 

















长 且 难 懂 ， 但 其 存在 说 明 一 切 都 在 正常 运行 。 可 在 开发 时 运行 kil1 -9 
命令 来 终止 nongod 进 程 并 重新 启动 ， 这 样 在 生产 环境 中 ， 如 果 发 生 相 
同 状 况 ， 也 会 明白 此 时 显示 哪些 信息 是 正常 的 。 


19.1.1 批量 提交 写 入 操作 


MongoDB 默 认 每 隔 100 坚 秒 ， 或 是 写 入 数据 达到 奉 干 兆 字 节 时 ， 便 会 将 
这 些 操作 写 入 日 记 。 这 意味 着 MongoDB 会 成 批量 地 提交 更 改 ， 即 每 次 
写 入 不 会 立即 刷新 到 磁盘 。 不 过 在 默认 设置 下 ， 系 统 有 生计 涡 时 ， 不 可 
能 丢失 间隔 超过 100 毫 秒 的 写 入 数据 。 


然而 ， 对 于 一 些 应 用 而 言 ， 这 一 保障 还 不 够 牢固 ， 因 此 可 通过 奎 干 方式 
来 获得 更 强 有 力 的 持久 性 保证 。 可 通过 同 ”getLastError 传 递 j 选 项 ， 来 
确保 写 入 操作 的 成 功 。getLastError 会 等 待 前 一 次 写 入 操作 写 入 到 日 记 
中 ， 而 日 记 在 下 一 批 操作 写 入 前 ， 只 会 等 待 30 毫 秒 而 非 100 毫 秒 )， 

> db.foo.insert({"x" : 1 


> db.runCommand({"getLastError™" : 1, "j" : true}) 
> // The {"x"” : 1} document is now safely on disk〔 文 档 现 已 安全 保存 在 磁盘 上 ) 


























注意 ， 这 意味 着 如 果 在 每 次 写 入 操作 中 都 使 用 了 "j" : true 选 项 ， 则 写 
入 速度 实际 上 会 被 限制 为 每 秒 33 次 : 


(1 次 /30 毫 秒 )x(1000 毫 秒 / 秒 )=33.3 次 / 秒 

通常 将 数据 刷新 到 磁盘 并 不 会 耗费 这 么 长 时 间 ， 所 以 如 果 人 允许 
MongoDB 对 大 部 分 数据 进行 批量 写 入 而 非 每 次 都 单独 提交 ， 数 据 库 的 
性 能 则 会 更 好 。 然 而 ， 重 要 的 写 入 操作 还 是 会 经 常 选用 此 选项 。 

提交 一 次 写 入 操作 ， 会 同时 提交 这 之 前 的 所 有 写 入 操作 。 因 此 ， 如 果 有 
50 个 重要 的 写 入 操作 ， 可 使 用 “普通 的 ”getLastError (不 包括 j 选 项 ) ， 
而 在 最 后 一 次 写 入 后 使 用 含有 j 选 项 的 getLastError。 如 果 成 功 的 话 ， 
就 可 知道 所 有 50 次 写 入 操作 都 已 安全 刷新 到 厂 盘 上 。 

如 果 写 入 操作 含有 很 多 连接 ， 可 通过 并 发 写 入 ， 来 减少 使 用 j 选 项 所 带 
来 的 速度 开销 。 此 种 做 法 可 增加 数据 吞吐 量 ， 但 也 会 增加 延迟 。 


19.1.2 设 定 提交 时 间 间 隔 





























男 一 个 减少 日 记 被 干扰 几率 的 选项 是 ， 调 整 两 次 提交 间 的 时 间 间 隔 。 运 
行 setParameter 命 令 ， 设 定 journalcommitInterval 的 值 〈 最 小 为 2 宫 
秒 ， 最 大 为 500 宣 秒 ) 。 以 下 命令 使 得 MongoDB 每 隔 10 坚 秒 便 将 数据 提 


> db.adminCommand({"setParameter" : 1, "journalCcommitInterval" : 10}) 








也 可 使 用 命令 行 选 项 --journalcommitInterval 来 设 定 这 一 值 。 


无 论 时 间 间 隔 设 置 为 多 少 ， 使 用 带 有 "j" : true 的 getLastError 命 令 都 
会 将 该 值 减少 到 原来 的 三 分 之 一 。 


如 客户 端的 写 入 速度 超过 了 日 记 的 刷新 速度 ，mongod 则 会 限制 写 入 操 
作 ， 直 到 日 记 完 成 到 磁盘 的 号 入 。 这 是 mongod 会 限制 写 入 的 唯一 情 
况 。 


19.2 关闭 日 记 系 统 


对 于 所 有 生产 环境 的 部 署 ， 都 推荐 使 用 日 记 系 统 ， 但 有 时 我 们 可 能 需要 
关闭 该 系统 。 即 使 不 附带 j 选 项 ， 日 记 系统 也 会 影响 MongoDB 的 写 入 速 
度 。 如 果 写 入 数据 的 价值 不 及 写 入 速度 降低 带 来 的 损失 ， 我 们 可 能 融会 
想 要 禁用 日 记 系 统 。 


禁用 日 记 系统 的 缺陷 在 于 ，MongoDB 无 法 保证 发 生 裔 溃 后 数据 的 完整 
性 。 在 没有 日 记 系 统 的 前 提 下 ， 一 旦 发 生 崩 演 ， 那 么 数据 肯定 会 遭 到 损 
坏 ， 从 而 需要 对 数据 进行 修复 或 蔡 换 。 这 种 情况 下 中 到 损坏 的 数据 不 
应 继续 投入 使 用 ， 除 非 我 们 不 在 乎 数据 库 会 突然 停止 工作 。 


如 果 和 希望 数据 库 在 月 溃 后 能 够 继续 工作 ， 有 以 下 几 种 做 法 。 
19.2.1 蔡 换 数据 文件 


这 是 最 佳 选 择 。 删 除数 据 目 录 中 的 所 有 文件 ， 然 后 获取 新 文件 ， 可 从 备 
份 中 恢复 ， 使 用 确保 正确 的 数据 库 快 照 ， 如 果 是 副本 集成 员 的 话 ， 也 可 
对 其 进行 初始 化 同步 。 如 果 古 一 个 数据 量 较 小 的 副本 集 ， 重 新 同步 可 能 
是 最 好 的 选择 ， 即 先 停 止 此 成 员 的 运行 《如 宁 它 还 没有 停止 运行 的 
话 ) ， 删 除数 据 目录 中 的 所 有 内 容 ， 然 后 重新 启动 它 。 

















19.2.2 ”修复 数据 文件 


如 采 既 没有 备份 和 复制 ， 也 没有 副本 集中 的 其 他 成 员 ， 则 需 抢 救 所 有 可 
能 的 数据 。 需 对 数据 库 使 用 一 个 ”修复 “工具 ， 修 复 实 质 上 是 删除 所 有 受 
损 数据 ， 不 过 可 能 不 会 留 有 太 多 完好 的 数据 。 


mongod 自 带 了 两 种 修复 工具 ， 一 种 是 mongod 内 置 的 ， 另 一 种 是 
mongodump 内 置 的 。mongodump 的 修复 更 加 接近 底层 ， 可 能 会 找到 更 多 
的 数据 ， 但 耗 时 要 更 长 〈 而 另 一 种 自 带 的 修复 方式 也 不 见得 很 快 ) 。 另 
外 ， 如 使 用 mongodump 的 修复 ， 在 准备 再 次 启动 前 ， 依 然 需要 恢复 数据 
的 操作 。 

因此 ， 应 根据 愿意 在 数据 恢复 中 消耗 的 时 间 长 短 来 进行 决定 。 


要 使 用 mongod 内 置 的 修复 工具 ， 需 附带 - -repair 选 项 运行 mongod: 


$ mongod --dbpath /path/to/corrupt/data --repair 














进行 修复 时 ，MongoDB 不 会 开启 27017 端 口 的 监听 ， 但 我 们 可 通过 查看 
日 志 (log) 的 方式 得 知 它 正 在 做 人 什么。 注意， 修复 过 程 会 对 数据 进行 

一 份 完整 的 复制 ， 所 以 如 有 80 ”GB 的 数据 ， 则 需 80 ”GB 的 空闲 磁盘 空 
间 。 为 尽量 解决 这 一 问题 ， 修 复工 具 提 供 了 --repairpath 选 项 。 这 一 选 
项 允许 在 主 磁盘 空间 不 足 时 挂 载 一 个 “紧急 驱动 器 ?>， 并 使 用 它 来 进行 修 
复 操 作 。 --repairpath 选 项 的 用 法 如 下 : 


$ mongod --dbpath /path/to/corrupt/data \ 
> --repair --repairpath /media/external-hd/data/db 








如 果 修 复 过 程 被 强行 终止 ， 或 者 出 现 故障 《如 磁盘 空间 不 足 ) ， 至 少 不 
会 使 情况 变 得 更 糟 。 修 复工 具 将 所 有 的 输出 都 写 入 新 的 文件 中 ， 不 会 对 
原 有 文件 进行 修改 。 因 此 原始 数据 文件 不 会 比 开 始 修 复 时 变 得 更 糟 。 


另 一 个 选择 是 使 用 mongodump 的 --repair 选 项 ， 就 像 这 样 : 


$ mongodump --repair 


这 些 选 择 都 不 是 特别 好 ， 但 它们 应 该 可 以 让 mongod 重 新 运行 在 一 个 干 


净 的 数据 集 上 。 
19.2.3 ”关于 mongod.lock 文 件 


数据 目录 中 有 一 个 名 为 mongod.lock 的 特殊 文件 。 该 文件 在 关闭 日 记 系 
统 运行 时 十 分 重要 (如 启用 了 日 记 系 统 ， 则 这 一 文件 不 会 出 现 )。 


当 mongod 正 常 退 出 时 ， 会 清除 mongod.lock 文 件 ， 这 样 在 启动 时 ， 
mongod 就 会 得 知 上 一 次 是 正音 退出 的 。 相 反 ， 如 采访 文件 没 被 清除 ， 
mongod 就 会 得 知 上 一 次 是 异常 退出 的 。 


如 果 mongod 监 测 到 上 一 次 是 异常 退出 的 ， 则 会 禁止 再 启动 ， 这 样 我 们 
就 会 意识 到 一 份 干净 数据 副本 的 需求 。 然 而 ， 有 些 人 意识 到 可 通过 删除 
mongod.lock 文 件 来 启动 mongod。 请 不 要 这 么 做 。 通 常 ， 在 启动 时 删除 
这 一 文件 ， 意 味 着 我 们 不 知道 也 不 在 乎 数据 是 否 受 损 。 除 非 如 此 ， 人 否则 
请 不 要 这 么 做 。 如 果 mongod.lock 文 件 阻止 了 mongod 的 启动 ， 请 对 数据 
进行 修复 ， 而 非 删除 该 文件 。 


19.2.4 隐蔽 的 异常 退出 


不 要 删除 锁 文件 的 男 一 重要 原因 在 于 ， 我 们 甚至 可 能 意识 不 到 这 是 一 次 

异常 退出 。 假 设 我 们 需要 重启 机 器 进行 例 行 维护 。 和 初始化 脚本 应 负责 在 

服务 器 关闭 之 前 关闭 mongod。 和 初始 化 脚本 通常 会 先 尝试 正常 关闭 程 

序 ， 但 如 在 奉 干 秒 后 依然 没有 关闭 的 话 ， 则 会 选择 强行 关闭 。 在 一 个 繁 

忙 的 系统 上 ，MongoDB 完 全 可 能 耗费 30 秒 来 结束 运行 ， 正 常 的 初始 化 

A 因此 ， 异 常 退 出 的 次 数 可 能 比 我 们 知道 的 要 
得 多 。 


19.3 MongoDB 无 法 保证 的 事项 


在 便 件 或 文件 系统 出 现 故障 等 情况 下 ，MongoDB 无 法 保证 操作 的 持久 
无 其 是 在 硬盘 发 生 损坏 的 情况 下 ，MongoDB 根 本 无 法 保证 数据 安 


另外 ， 不 同 的 硬件 和 软件 对 于 持久 性 的 保障 可 能 有 所 不 同 。 例 如 ， 一 些 
破旧 的 硬盘 会 在 写 入 操作 还 在 列队 中 等 竺 之 际 ， 便 报告 称 写 入 成 功 。 
a 如 末 此 时 系统 骨 沉 ， 数 据 束 可 能 
人 





























基本 上 ，MongoDB 的 安全 性 与 其 所 基于 的 系统 相同 ，MongoDB 无 法 避 
免 硬 件 或 文件 系统 导致 的 数据 损坏 。 可 使 用 副本 应 对 系统 问题 。 如 果 一 
台 机 器 发 生 了 故障 ， 还 有 另 一 台 在 正常 工作 。 

19.4 检验 数据 损坏 


人 
码 如 下 : 


> db.foo.validate() 
{ 





"ns" : "test.foo", 
"firstExtent" : "0:2000 ns:test.foo", 
"lastExtent" : "1:3eae000 ns:test.foo", 


"extentCount" : 11, 
"datasize" : 75960008, 
"nrecords" :; 1000000, 
"lastExtentSize" :; 37625856, 
"padding" : 1, 


"firstExtentDetails" : { 
"loc" : "0:2000", 
"xnext" : "0:f000"， 
"xprev™ :; "null", 
"nsdiag" : "test.foo", 
"size" : 8192, 
"firstRecord" : "0:20b0"， 
"JastRecord" :; "0:3fa0" 


也 
"deletedCount" :; 9, 
"deletedSize" : 31974824, 


"nIndexes" : 2, 

"keysPerIndex" : { 
"test.foo.$ id " : 1000000, 
"test.foo.$str_1" : 1000000 

了 

"valid" : true, 

"errors" :; [|], 

"warning" : "Some checks omitted for speed. use {full:true} 
option to do more thorough scan.", 

"ok"” : 1 





需 重 点 注意 的 是 结尾 附近 的 valid 字 段 ， 字 段 值 为 true。 人 否则 ， 输 出 内 
容 中 会 包含 找到 的 数据 损坏 细节 。 


输出 中 的 大 部 分 内 容 ， 是 有 关 集 合 的 内 部 结构 信息 ， 于 调试 而 言 没有 太 
大 用 处 。 更 多 有 关 和 集合 内 部 结构 的 内 容 ， 请 参见 附录 B。 


firstExtent ( 首 区 段 ) 
该 集合 首 区 段 〈extent) 的 厂 盘 偏 移 量 (disk offset) 。 本 例 中 位 于 
文件 test.0 处 ， 字 节 偏 移 量 (byte offset) 为 0x2000。 


lastExtent 〈 尾 区 段 ) 
该 集合 尾 区 有 段 的 偏 移 量 。 本 例 中 位 于 文件 test.1 处 ， 字 节 偏 移 量 为 
0x3eae000。 








extentCount 


该 集合 所 占 区 段 数量 。 


lJastExtentSize 
最 近 分 配 区 上段 的 字 节 数量 。 区 上 段 大 小 随 集合 的 增长 而 增长 ， 最 大 可 
达 2GB。 


firstExtentDetails 

描述 集合 中 首 区 段 的 子 对 象 。 其 中 包含 指 同 相 邻 两 个 区 段 的 指针 
(xnext 和 xprev) 、 区 段 的 大 小 〈 注 意 ， 它 比 尾 区 段 要 小 得 多 ， 通 
常 首 区 段 是 很 小 的 ) ， 以 及 指 同 区 段 中 第 一 条 和 最 后 一 条 记录 
(record) 的 指针 。 记 录 是 真正 承载 着 文档 的 结构 。 








deletedCount 


该 集合 从 存在 至 今 ， 共 删除 的 文档 数目 。 


deletedSize 
该 集合 中 空闲 列表 (free list) ， 即 所 有 有 效 空 余 空间 的 大 小 。 不 仪 
包括 被 删除 文档 所 占 的 空间 ， 还 包括 已 被 预 分 配给 该 集合 的 空间 。 


validate 命 令 只 适用 于 集合 ， 而 不 适用 于 索引 。 因 此 我 们 通常 无 法 判断 
索引 是 个 被 损坏 ， 除 非 过 历 检查 一 过 ， 即 查询 每 个 索引 在 集合 中 对 应 的 
文档 。 通 过 壳 历 得 出 的 结果 即 可 判断 索引 是 人 否 被 损坏 。 


如 果 程 序 提示 了 非法 的 BSON 对 象 (invalid BSONObj) ， 一 般 说 明 数 据 
损坏 了 。 最 糟糕 的 错误 则 是 提 到 了 pdfile 的 错误 。pdfile 可 以 说 是 
和 源 于 pdfile 的 错误 基本 说 明 数据 文件 已 经 损 
不 了 。 











如 果 遇 到 了 数据 损坏 ， 则 可 在 日 志 中 看 到 类 似 如 下 内 容 : 


Tue Dec 20 01:12:09 [initandlisten] Assertion: 10334: 
Invalid BSONOb] size: 285213831 (Ox87040011) 
first element: _id: 0bjectId('4e5efa454b4ae20fa6000013 ' ) 


如 果 显 示 的 第 一 个 元 素 已 经 被 废弃 ， 束 没什么 可 做 的 了 。 如 果 第 一 个 元 
素 还 是 可 见 的 《如 上 例 中 的 objectId) ， 也 许可 删除 损坏 文档 。 可 尝试 
运行 : 


> db.remove({_id: ObjectId( '4e5efa454b4ae20fa6000013 ' )} ) 


将 其 中 的 _id 丛 换 为 日 志 中 看 到 的 对 应 _id。 注 意 ， 如 果 数 据 损坏 影响 的 
不 只 是 该 文档 ， 则 这 种 技术 可 能 不 会 奏效 。 这 种 情况 下 ， 我 们 可 能 仍 需 
对 数据 进行 修复 。 


19.5 ”副本 集中 的 持久 性 
第 10 章 曾 讨论 过 副本 集中 的 投票 问题 ， 即 一 次 对 副本 集 的 写 入 操作 ， 在 


写 入 副本 集中 的 大 多 数 成 员 中 之 前 ， 可 能 先 会 进行 回 滚 (rollback) 。 
可 将 与 此 相关 的 选项 和 之 前 提 到 的 日 记 系 统 的 选项 结合 起 来 使 用 : 


> db.runCommand({"getLastError™" :; 1, "j" : true, "w" : "majority"}) 





进行 这 一 操作 后 ， 可 保证 写 入 操作 写 入 到 了 主 节 点 和 备份 节点 中 ， 其 中 
只 有 对 主 节点 的 写 入 可 保证 持久 性 。 理 论 上 来 讲 ， 在 进行 写 入 到 记录 到 
日 记 内 的 100 坚 秒 时 间 内 ， 多 数 的 服务 器 同时 裔 总 也 是 有 可 能 的 ， 这 种 
情况 下 数据 库 会 回 深 到 当前 主 节 点 的 状态 。 虽 然 这 是 一 种 极端 情况 ， 但 
也 说 明 其 并 非 是 完美 的 。 遗 憾 的 是 要 解决 这 一 问题 并 不 简单 ， 但 目前 

MongoDB 社 区 正 演 试 改变 这 一 情况 。 


第 20 章 局 动 和 停止 MongoDB 


我 们 在 第 2 章 中 学 习 了 有 关 局 动 MongoDB 的 基本 命令 。 本 章 我 们 将 就 生 
产 环境 中 配置 MongoDB 的 重要 选项 展开 深入 的 学 习 ， 内 容 包括 : 


。 常用 选项 ; 

。 启动 和 停止 MongoDB; 
。 安全 相关 选项 ; 

。 使 用 日 志 时 的 注意 事项 。 


20.1 ”从 命令 行 启 动 


执行 mongod 程 序 即 可 启动 MongoDB 服 务 器 ，mongod 在 启动 时 可 使 用 许 
多 可 配置 选项 ， 在 命令 行 中 运行 nongod ”--help 可 列 出 这 些 选项 。 下 列 
选项 十 分 常用 ， 需 着 重 注意 。 


e --dbpath 
使 用 此 选项 可 指定 一 个 目录 为 数据 目录 。 其 默认 值 为 /data/db/ 在 
Windows 中 则 为 MongoDB 可 执行 文件 所 在 磁盘 卷 中 的 \datavdb 目 
录 ) 。 机 器 上 的 每 个 mongod 进 程 都 需要 属于 自己 的 数据 目录 ， 即 
若 在 同一 机 器 上 运行 三 个 mongod 实 例 ， 则 需 三 个 独立 的 数据 日 
录 。mongod 启 动 时 ， 会 在 其 数据 目录 中 创建 一 个 mongod.lock 文 
件 ， 以 阻止 其 他 mongod 进 程 使 用 此 数据 目录 。 奋 尝试 启动 男 一 个 
使 用 相同 数据 目录 的 MongoDB 服 务 器 ， 则 会 出 现 错误 提示 : 


"Unable to acquire lock for lockfilepath: 
/data/db/mongod.1lock." 














--port 

此 选项 用 以 指定 服务 器 监听 的 端口 号 。mongod 默 认 占 用 27017 端 
口 ， 除 其 他 mongod 进 程 外 ， 其 余 程 序 不 会 使 用 此 端口 。 大 要 在 同 
一 机 器 上 运行 多 个 mongod 进 程 ， 则 需 为 它们 指定 不 同 的 端口 。 寿 
笠 试 在 已 被 占 用 的 端口 启动 mongod， 则 会 出 现 错误 提示 : 
"Address already in use for socket: 0.0.0.0:27017" 


--fork 
启用 此 选项 以 调用 fork 创 建 子 进程 ， 在 后 台 运 行 MongoDB。 





首次 启动 mongod 而 数据 目录 为 空 时 ， 文 件 系 统 需 几 分 钟 时 间 分 配 数 据 
库 文件 。 预 分 配 结束 ，mongod 可 接收 连接 后 ， 父 进程 才 会 继续 运行 。 
因此 ，fork 可 能 会 发 生 挂 起 。 可 查看 日 志 中 的 最 新 记录 得 知 正 在 进行 的 
操作 。 启 用 --fork 选 项 时 ， 必 须 同 时 启用 --1logpath 选 项 。 








--logpath 

使 用 此 选项 ， 所 有 输出 信息 会 被 发 送 至 指定 文件 ， 而 非 在 命令 行 上 
输出 。 假 设 我 们 拥有 该 目录 的 写 权 限 ， 寿 指定 文件 不 存在 ， 启 用 该 
选项 后 则 会 自动 生成 一 个 文件 。 奎 指定 日 志文 件 已 存在 ， 选 项 启用 
后 则 会 履 盖 抒 该 文件 ， 并 清除 所 有 旧 的 日 志和 条目 。 如 需 保 留 旧 日 
志 ， 除 --logpath 选 项 外 ， 强 烈 建 议 使 用 - -logappend 选 项 。 

















--directoryperdb 

司 用 该 选项 可 将 每 个 数据 库存 放 在 单独 的 目录 中 。 我 们 可 由 此 按 需 
将 不 同 的 数据 库 挂 载 到 不 同 的 磁盘 上 。 该 选项 一 般 用 于 将 本 地 数据 
库 或 副本 放置 于 单独 的 磁盘 上 ， 或 在 磁盘 空间 不 足 时 将 数据 库 移 动 
至 其 他 磁盘 。 也 可 将 频繁 操作 的 数据 库 挂 载 到 速度 较 快 的 磁盘 上 ， 
而 将 不 常用 的 数据 库 放 到 较 慢 的 磁盘 上 。 总 之 该 选项 能 使 我 们 在 今 
后 更 加 灵活 地 操作 数据 库 。 





--Cconfig 

额外 加 载 配置 文件 ， 未 在 命令 行 中 指定 的 选项 将 使 用 配置 文件 中 的 
参数 。 该 选项 通常 用 于 确保 每 次 重新 启动 时 的 选项 都 是 一 样 的 。 详 
细 内 容 请 参见 20.1.1 节 。 





例如 ， 要 在 后 台 局 动 一 个 服务 器 ， 监 听 5586 端 口 ， 并 将 所 有 输出 信息 发 
送 至 mongodb.log 文 件 中 ， 可 运行 如 下 命令 : 


$ ./mongod --port 5586 --fork --logpath mongodb,1og --logappend 
forked process: 45082 
all output going to: mongodb ,1og 


注意 ，mongod 可 能 在 意识 到 自身 启动 前 ， 便 开始 预 配置 日 志文 件 。 这 


时 ， 





直到 预 配置 完成 ，fork 命 令 才 会 返回 命令 提示 符 。 可 查看 





mongodb.log 文 件 (或 重 定 同日 志文 件 ) 末尾 ， 观 察 这 一 操作 过 程 。 


首次 安装 启动 MongoDB 时 ， 应 查看 一 下 日 志 。 这 一 点 很 容易 被 忽视 ， 
尤其 是 使 用 初始 化 脚本 来 启动 MongoDB 的 时 候 。 但 日 志 中 常 包含 重要 
的 警告 信息 ， 及 时 解决 这 些 问 题 可 预防 随 之 而 来 的 错误 。 如 启动 时 没有 
出 现任 何 警 告 本 那么 就 一 切 就 络 了 。 “局 动 时 发 出 的 警告 信息 会 同时 出 
现在 shell 里 。 


如 在 局 动 时 出 现 卫 党 全 言 轧 ， 应 把 它们 记录 下 来 。MongoDB 会 因 以 下 
问题 用 出 警告 : 运行 于 32 位 的 机 器 上 〈MongoDB 并 非 为 32 位 机 器 设 
计 ) ; 启用 了 NUMA (Non-Uniform Memory Access， 非 均匀 访 存 模 
型 ， 启 用 此 会 严重 拖 慢 应 用 的 运行 速度 ) ; 或 者 系统 所 允许 打开 的 文件 
描述 符 (descriptor) 数目 过 少 (MongoDB 需 使 用 大 量 的 文件 描述 

和 从) 。 

重启 数据 库 时 ， 日志 的 前 部 不 会 发 生 更 改 ， 所 以 一 旦 了 解 了 日 志 内 容 ， 
就 完全 可 以 使 用 初始 化 脚本 来 运行 MongoDB， 而 不 用 去 考虑 日 志 。 然 


而 ， 在 安装 、 升 级 ， 或 从 骨 尝 中 恢复 后 ， 都 应 重新 检查 日 志 ， 以 确保 
MongoDB 和 系统 相 契 合 。 


启动 数据 库 时 ，MongoDB 会 将 一 个 文档 写 入 local.startup_log 集 合 中 ， 该 
集合 包含 了 MongoDB 的 版 本 、 其 所 基于 的 系统 ， 以 及 所 用 的 标记 : 


> db.startup_1log.findone() 














"” id"”: "spock-1360621972547", 
"hostname" : "spock", 
"startTime" : ISODate("2013-02-11T22:32:522Z"), 
"startTimeLocal" : "Mon Feb 11 17:32:52.547", 
"cmdLine" : { 
}, 
"pid" : 28243, 
"buildinfo™" : { 
"version™” :; "2.4.0-rci-pre-", 
"versionArray" : [ 
2 
4, 
90， 
-9 
了 
"javascriptEngine"”: "V8", 
"bits" : 64, 


"debug" : false, 
"maxBsonObjectSize" : 16777216 
} 
} 


该 集合 可 用 于 跟踪 数据 库 升 级 或 更 改 后 的 运行 状况 。 
使 用 配置 文件 


MongoDB 文 持 从 文件 中 读 取 配置 信息 。 当 使 用 的 选项 很 多 ， 或 自动 化 
启动 任务 时 ， 使 用 配置 文件 就 十 分 实用 。 使 用 -f 或 --config 标 记 ， 告 知 
服务 器 使 用 配置 文件 。 例 如 ， 运 行 hongod --config ~/.mongodb.conf， 
从 而 使 用 ~/ .mongodb.conf 作 为 配置 文件 。 


配置 文件 中 文 持 的 参数 和 在 命令 行 中 的 参数 完全 相同 。 以 下 是 一 个 配置 
文件 的 例子 : 


# Start MongoDB as a daemon on port 5586 











port = 5586 

fork = true # daemonize it! 
logpath = /var/log/mongodb.1og 
logappend = true 





该 配置 文件 指定 的 参数 与 之 前 启动 时 在 命令 行 中 指定 的 参数 相同 。 文 件 
中 也 展现 了 MongoDB 配 置 文件 的 主要 内 容 : 





。## 后 的 内 容 ， 会 被 作为 注释 忽略 扼 ; 
。 指定 参数 的 语法 是 option = value， 其 中 option 的 名 称 区 分 大 小 


与 ; 
。 在 命令 行 中 类 似 - -fork 的 开关 选项 ， 应 把 fork 的 值 设 为 true 。 
20.2 停止 MongoDB 


安全 停止 运行 中 的 MongoDB 服 务 器 ， 与 安全 月 动 该 服务 器 一 样 重要 。 
有 右 干 人 不同 选 项 可 有 效 地 完成 这 一 操作 。 


关闭 运行 中 的 服务 器 ， 最 简洁 的 方法 是 使 用 shutdown 命 令 
{"shutdown"” : 1}。 这 是 一 个 管理 员 命 令 ， 必 须 运行 在 admin 数 据 库 
上 。shell 提 供 了 一 个 辅助 函数 ， 用 以 简单 地 执行 shutdown 命 令 : 


> use admin 

switched to db admin 

> db.shutdownServer() 
server should be down... 














在 主 节点 (primary) 上 运行 shutdown 命 令 时 ， 服 务 器 在 关闭 前 ， 会 先 等 
待 备份 节点 (secondary) 追赶 〈catch up) 主 节点 以 保持 同步 。 这 将 回 
深 的 可 能 性 降 至 最 低 ， 但 shutdown 操 作 有 失败 的 可 能 性 。 如 几 秒 钟 内 没 
有 备份 节点 成 功 同 步 ， 则 shutdown 操 作 失 败 ， 主 节点 亦 不 会 停止 运行 : 


> db.shutdownServer() 





"closest" : NumberLong(1349465327), 

"difference" : NumberLong(20), 

"errmsg" : "no secondaries within 10 seconds of my optime", 
"ok" :; 0 


可 使 用 force 选 项 ， 强 制 关 闭 主 节点 : 


db.adminCommand({"shutdown" : 1, "force" : true}) 


这 相当 于 发 送 一 个 SIGINT 或 SIGTERM 信 号 (三 种 做 法 都 能 使 MongoDB 
安全 地 停止 运行 ， 但 可 能 会 有 数据 未 能 完成 同步 ) 。 如 服务 器 正在 终端 
中 作为 前 台 进 程 运行 ， 那 么 按 下 Ctrl-C 快 捷 键 也 能 发 送 一 个 SIGINT 信 
号 。 另 外 ，kil1 之 类 的 命令 也 可 用 于 发 送 这 些 信号 。 假 设 mongod 的 
PID (Process identifier， 进 程 标识 符 ) 为 10014， 那 么 相应 的 命令 就 
是 kill -2 10014 (发 送 SIGINT 信 号 ) 或 kil1 10014 (发 送 SIGTERM 信 
时 小 避 











mongod 收 到 SIGINT 或 SIGTERM 信 号 后 ， 会 安全 地 停止 运行 。 这 意味 着 
mongod 会 等 当前 正在 进行 的 操作 或 文件 预 分 配 结束 〈 耗 时 一 定时 
间 ) ， 再 关闭 所 有 打开 的 连接 ， 将 缓存 写 入 磁盘 ， 继 而 结束 运行 。 


20.3 ”安全 性 
不 要 将 MongoDB 服 务 器 直接 暴露 在 外 网 上 。 应 尽 可 能 地 限制 外 部 对 


MongoDB 的 访问 。 最 好 的 方式 是 设置 防火 墙 ， 只 允许 内 部 网 络 地 址 对 
MongoDB 的 访问 。 第 23 章 介绍 了 MongoDB 服 务 器 与 客户 端 间 的 必要 连 
接 。 





除 使 用 防火 墙 外 ， 也 可 在 配置 文件 中 加 入 以 下 选项 来 增强 安全 性 。 


e --bind_ip 


指定 MongoDB 监 听 的 接口 。 我 们 通常 将 其 设置 为 一 个 内 部 IP 地 址 ， 
从 而 保证 应 用 服务 器 和 集群 中 其 他 成 员 的 访问 ， 同 时 拒绝 外 网 的 访 
问 。 如 MongoDB 与 应 用 服务 器 运行 于 同一 全 机 器 上 ， 则 可 将 其 设 
为 1ocalhost。 但 配置 服务 器 和 分 片 需要 其 他 机 器 的 访问 ， 所 以 不 


应 设 为 localhost。 








--nohttpinterface 


MongoDB 启 动 时 ， 默 认 在 端口 1000 启 动 一 个 微型 的 HTTP 服务 器 。 
该 服务 器 可 提供 一 些 系 统 信息 ， 但 这 些 信息 均 可 在 其 他 地 方 找 到 。 
对 于 一 个 可 能 只 需 通过 SSH 访 问 的 机 器 ， 没 有 必要 将 这 些 信 息 暴 露 
在 外 网 上 。 


除非 正在 进行 开发 ， 人 否则 请 关闭 此 选项 。 





© --nounNnixsocket 


如 不 打算 使 用 UNIX socket 来 进行 连接 ， 则 可 禁用 此 选项 。 只 有 在 
本 地 ， 即 应 用 服务 器 和 MongoDB 运 行 在 同一 台 机 器 上 时 ， 才 能 使 
用 socket 进 行 连接 。 


--noscripting 


该 选项 完全 禁止 服务 器 端 JavaScript 脚 本 的 运行 。 大 多 数 报告 的 
MongoDB 安 全 问题 都 与 ”JavaScript 有 关 。 如 程序 允许 的 话 ， 禁 止 
JavaScript 通 常会 更 安全 一 些 。 


一 些 shell 中 的 辅助 函数 依赖 于 服务 器 端的 JavaScript， 尤 其 
是 sh.status()。 在 一 台 禁 止 了 JavaScript 的 服务 器 上 运行 这 些 辅 助 
函数 时 ， 会 出 现 错误 提示 。 


不 要 局 用 REST 操 作 界 面 。 该 界面 是 默认 茶 用 的 ， 开 局 后 可 在 服务 器 上 
执行 很 多 命令 ， 但 并 非 为 生产 环境 所 设计 。 


20.3.1 数据 加 密 


截止 至 撰写 本 书 时 ，MongoDB 还 未 提供 内 置 数据 加 密 机 制 。 如 需 对 数 
据 进行 加 密 ， 可 使 用 加 密 文件 系统 。 另 一 种 做 法 是 手动 加 密 某 些 字段 ， 








但 MongoDB 无 法 查询 加 密 的 值 。 
20.3.2 SSL 安全 连接 


连接 至 MongoDB 传 输 的 数据 默认 不 被 加 密 。 然 而 ，MongoDB 支 持 使 用 
SSL 连 接 。 由 于 授权 的 原因 ， 默 认 版 本 中 并 未 包含 SSL， 可 从 
http:/www.10gen.com 下 载 一 个 支持 SSL 的 版 本 。 也 可 以 自己 编译 
MongoDB 的 源 代码 启用 SSL。 请 查阅 本 国语 言 的 驱动 程序 文档 ， 了 解 创 
建 SSL 连 接 的 方法 。 





20.4 日 志 


mongod 默 认 将 日 志 发 送 至 stdout〈 标 准 输出 ， 通 党 为 终端 ) 。 大 多 初始 
化 脚本 会 使 用 --1logpath 选 项 ， 将 日 志 发 送 至 文件 。 如 在 同一 台 机 器 上 
有 多 个 MongoDB 实 例 〈 比 如 说 一 个 mongod 和 一 个 mongos) ， 注 意 保 证 
各 实例 的 日 志 分 别 存放 在 单独 的 文件 中 。 确 保 知道 日 志 的 存放 位 置 ， 并 
拥有 文件 的 读 访 问 权 限 。 


MongoDB 会 输出 大 量 日 志 消 轧 ， 但 请 不 要 使 用 --quiet 选 项 〈 该 选项 会 
隐藏 部 分 日 志 消 息 ) 。 保 持 日 志 级 别 为 默认 值 通常 不 错 ， 此 时 日 志 中 有 
足够 的 信息 进行 基本 调试 (如 耗 时 过 长 或 局 动 异 常 的 原因 等 ) ， 但 日 志 
| 调试 应 用 东 特 定 问 题 时 ， 可 使 用 一 些 选项 从 日 志 中 
获 言 娠 。 


首先 ， 在 重启 MongoDB 时 ， 可 通过 在 参数 中 附加 数目 更 多 的 “vy”( 即 
V、-VV、-VVV、-VVVV 或 -vvvvv) ， 或 运行 如 下 setParameter 命 令 ， 完 成 


日 志 级 别 (log level) 的 更 改 。 


> db.adminCommand({"setParameter" : 1, "logLevel" : 3}) 

















记得 将 日 志 级 别 重 设 为 0， 人 否则 日 志 中 会 存在 过 多 不 必要 的 内 容 。 可 将 
日 志 级 别 调 高 至 5， 这 时 mongod 会 在 日 志 中 记录 几乎 所 有 的 操作 ， 包 括 
每 一 个 请 求 所 处 理 的 内 容 。 由 于 mongod 将 所 有 内 容 都 写 入 了 日 志文 

件 ， 因 此 可 产生 大 量 的 磁盘 读 写 操作 〈IO) ， 从 而 拖 慢 一 个 忙碌 的 系 
如 需 即 时 看 到 正在 进行 的 所 有 操作 ， 打 开 分 析 器 不 失 为 更 好 的 方 

法 : 


MongoDB 和 默认 记录 耗 时 超过 100 军 秒 的 查询 信息 。 如 100 军 秒 不 适用 于 











应 用 ， 可 通过 setProfilingLevel 命 令 来 更 改 此 阔 值 : 





> // 0nly log queries that take longer than 500ms 《只 记录 耗 时 超过 500 毫 秒 的 查询 操作 ) 
> db.setProfilingLevel(1, 500) 

{ "was" : 0, "slowms" : 100, "ok" :; 1 } 
> db.setProfilingLevel(0) 

{ "was" : 1, "slowms" : 500, "ok" :; 1 } 


es 虽 令 将 关闭 分 析 器 ， 但 第 一 条 指令 中 以 宣 秒 为 单位 的 值 将 继 
续 作 为 所 有 数据 库 中 日 志 记 录 的 阅 值 而 生效 。 也 可 使 用 --slowms 选 项 重 
启 MongoDB 来 更 改 这 一 国 值 。 


最 后 ， 设 置 一 个 计划 任务 以 便 每 天 或 每 周 分 割 〈rotate) 日 志文 件 。 如 
使 用 - | 启动 MongoDB， 问 进程 发 送 一 个 SIGUSR1 信 和 号 即使 
其 对 日 志 进 行 分 割 。 也 可 使 用 logRotate 命 令 以 达到 相同 目的 : 


> db.adminCommand({"logRotate" : 1}) 











如 不 是 通过 - -logpath 选 项 启动 的 MongoDB， 则 不 能 对 日 志 进 行 分 割 。 


第 21 章 监控 MongoDB 


在 部 效 前 设置 茶 种 监控 系统 很 是 重要 。 监 控 系统 应 该 能 够 跟踪 服务 器 正 
在 运行 的 操作 ， 也 能 够 在 遇 到 问题 时 及 时 发 出 和 警报。 本章 将 学 习 : 


。 如 何 跟踪 监测 MongoDB 的 内 存 使 用 状况 ; 
。 如 何 跟 踪 监 测 应 用 的 性 能 指标 ; 
。 如 何 诊断 复制 中 的 问题 。 


本 章 以 MMS (Mongo Monitoring Service，Mongo 监 控 服 务 ) 为 例 ， 演 示 
监控 时 应 注意 的 内 容 。 请 于 https:/mms.10gen.com 查 找 MMS 的 安装 说 

明 。 如 不 想 使 用 MMS， 也 可 使 用 其 他 监控 系统 。 监 控 系 统 可 在 故障 发 
生前 检测 到 潜在 问题 ， 并 有 助 于 我 们 对 于 问题 的 诊断 。 


21.1 监控 内 存 使 用 状况 


访问 内 存 中 的 数据 很 快 ， 而 访问 磁盘 中 的 数据 则 较 慢 。 不 幸 的 是 ， 二 者 
相 比 ， 内 存 较为 昂贵 ， 而 “MongoDB 通 常 也 会 优先 使 用 内 存 。 本 节 将 讲 
ee 内 存 和 磁盘 进行 交互 的 监控 方式 ， 以 及 监控 中 应 关 


21.1.1 有 关 电 脑 内 存 的 介绍 


电脑 中 一 般 会 有 容量 小 且 访问 速度 快 的 内 存 ， 以 及 容量 大 但 访问 速度 慢 
的 磁盘 。 当 请 求 一 页 存储 于 磁盘 上 但 尚未 存 于 内 存 中 的 数据 时 ， 系 统 就 
会 产生 一 个 缺 页 中 断 ， 而 后 将 此 页 数据 从 磁盘 复制 到 内 存 。 此 后 就 可 以 
极 快 地 访问 内 存 中 的 页 面 。 如 程序 不 再 使 用 此 页 面 内 容 ， 而 内 存 又 被 其 
他 页 所 占 满 ， 旧 的 页 面 就 会 被 清除 出 内 存 而 只 存在 于 磁盘 上 。 


将 一 页 数据 从 磁盘 复制 到 内 存 ， 比 从 内 存 中 读 取 一 页 数据 耗 时 更 长 。 
此 ，MongoDB 从 磁盘 复制 数据 的 操作 越 少 越 好 。 如 果 MongoDB 能 够 在 
内 存 中 进行 几乎 所 有 操作 ， 则 访问 数据 的 速度 就 能 快 很 多 。 所 以 ， 
MongoDB 的 内 存 使 用 情况 ， 是 要 跟踪 监测 的 最 重要 指标 之 一 。 


21.1.2 跟踪 监测 内 存 使 用 状况 





























MongoDB 上 所 使 用 的 内 存 有 几 种 不 同 的 类 型 。 第 一 种 是 常 驻 内 存 
(resident memory) : MongoDB 在 物理 内 存 中 明确 拥有 的 内 存 部 分 。 例 
如 ， 在 查询 文档 时 ， 访 页 面 即 被 载 入 内 存 中 ， 并 成 为 常 驻 内 存 的 一 部 


刀 。 





MongoDB 赋 予 页 面 一 个 地 址 ， 此 地 址 并 非 物理 内 存 中 页 面 的 真实 地 
址 ， 而 是 一 个 虚拟 地 址 。MongoDB 可 将 此 地 址 传 给 内 核 ， 继 而 由 内 核 
将 其 翻译 成 真正 的 物理 地 址 。 这 样 ， 即 使 内 核 需 将 此 页 面 从 内 存 中 清除 
出 去 ，MongoDB 依 然 可 通过 虚拟 地 址 来 访问 此 页 面 。MongoDB 问 内 核 
请 求 内 存 ， 内 核 会 在 它 的 页 缓存 (page cache) 中 进行 查找 。 但 请 注 
意 ， 该 页 并 不 在 此 处 。 碍 找 失败 会 产生 缺 页 中 断 ， 继 而 将 此 页 复制 至 内 
存 ， 最 后 返回 到 MongoDB。 这 些 MongoDB 赋 予 了 地 址 的 数据 页 面 ， 即 
构成 了 映射 内 存 (mapped memory) ， 其 中 包含 了 MongoDB 访 问 过 的 所 
有 数据 。 通 常情 况 下 ， 映 射 内 存 的 大 小 约 等 于 整个 数据 集 的 大 小 。 


MongoDB 为 映射 内 存 中 的 每 个 页 面 ， 都 额外 维护 了 一 个 虚拟 地 址 ， 以 
供 日 记 〈journaling) 使 用 《参见 第 19 章 ) 。 这 并 不 意味 看 内 存 中 有 着 两 
份 同样 的 数据 ， 有 的 只 是 两 个 地 址 而 已 。 所 以 ，MongoDB 所 使 用 虚拟 
内 存 的 总 量 ， 约 是 映射 内 存 的 两 倍 大 小 ， 或 者 说 是 整个 数据 集 的 两 倍 大 
小 。 如 关闭 了 日 记 机 制 ， 则 映射 内 存 的 大 小 约 等 于 虚拟 内 存 的 大 小 。 


注意 ， 虚 拟 内 存 和 映射 内 存 均 不 是 “真正 的 ?内存 分 配 : 二 者 与 实际 占用 
的 内 存 大 小 毫 无 关系 ， 它 们 只 是 MongoDB 维 护 的 映射 罢了 。 理 论 上 ， 
MongoDB 可 映射 1 PB (petabyte，1PB=1000 TB=1 000 000 GB) 的 内 
存 ， 但 实际 只 使 用 了 几 GB 的 物理 内 存 。 所 以 不 用 担心 映射 内 存 或 虚拟 
内 存 的 大 小 超过 物理 内 存 的 容量 。 


图 21-1 是 MMS 中 内 存 信息 的 图 像 ， 描 述 了 MongoDB 所 使 用 的 稼 驻 内 

存 、 虚 拟 内 存 和 映射 内 存 的 大 小 。 在 一 台 专 门 用 于 运行 MongoDB 的 机 

器 上 ， 假 设 工作 集 (working set) 的 大 小 不 小 于 内 存 容量 ， 则 第 驻 内 存 

的 大 小 应 和 小 于 总 的 内 存 大 小 。 只 有 常 驻 内 存 的 大 小 才 确 切 地 生 于 其 在 

Sr 占用 的 空间 ， 但 这 一 数据 并 不 能 说 明 MongoDB 所 使 用 的 
子 /I\。o 
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图 21-1 从 上 至 下 依次 为 虚拟 内 存 、 上 映射 内 存 和 第 驻 内 存 


数据 如 果 能 全 部 存放 在 内 存 中 的 话 ， 则 常 驻 内 存 应 与 数据 差不多 大 小 。 
当 说 到 数据 “在 内 存 中 * 时 ， 通 常 指 的 是 在 物理 内 存 中 。 


21.1.3 ”跟踪 监测 缺 页 中 断 


如 图 21-1 所 示 ， 内 存 的 使 用 状况 通常 比较 稳定 ， 但 随 着 数据 集 的 增长 ， 
虚拟 内 存 和 映射 内 存 也 得 到 了 增长 。 常 驻 内 存 会 增长 到 可 用 物理 内 存 的 
大 小 ， 而 后 保持 不 变 。 


除了 以 每 种 内 存 各 占用 多 少 空间 为 依据 ， 还 可 通过 其 他 数据 得 知 
MongoDB 的 内 存 使 用 方式 。 其 中 很 实用 的 一 个 指标 是 发 生 缺 页 中 断 的 
数量 ， 该 数量 表明 了 MongoDB 所 寻找 的 数据 不 在 物理 内 存 中 这 一 事件 
的 发 生 频 率 。 图 21-2 和 图 21-3 为 一 段 时 间 内 发 生 缺 页 中 断 的 次 数 。 图 21- 
3 中 缺 页 中 断 的 发 生 次 数 较 少 ， 但 这 一 数据 本 身 并 不 能 说 明 很 多 问题 。 
如 果 图 21-2 中 的 磁盘 能 够 处 理 这 么 多 的 缺 页 中 断 ， 而 应 用 程序 可 以 处 理 
这 些 破 盘 操 作 造 成 的 延迟 ， 那 么 有 这 人 么 多 缺 页 中 断 也 没什么 问题 。 另 一 
方面 ， 如 果 应 用 程序 无 法 处 理 从 人 磁盘 中 读 取 数据 造成 的 延迟 ， 则 只 能 将 
所 有 数据 存放 到 内 存 中 ， 或 者 使 用 固态 硬盘 〈solid state drive，SSD) 。 








| 缺 页 中 断 + IA ,0 
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图 21-2 ”一 个 每 分 钟 发 生 百 余 次 缺 页 中 断 的 系统 
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图 21-3 ”一 个 每 分 钟 发 生 几 次 缺 页 中 断 的 系统 


无 论 应 用 能 否 处 理 这 些 延 迟 ， 缺 页 中 断 都 会 在 磁盘 超 负 和 荷 时 成 为 大 问 

题 。 磁 盘 能 够 处 理 的 读 取 操作 数目 并 非 是 线性 的 : 一旦 磁盘 开始 超 负 和 蓓 
运行 ， 每 个 操作 都 必须 排队 等 候 更 长 时 间 ， 从 而 引发 连锁 反应 。 磁 盘 的 
超 负 和 葆 运行 通常 存在 一 个 临界 点 ， 超 出 临界 点 后 磁 副 的 性 能 会 迅速 下 

降 。 因 此 ， 应 避免 磁盘 的 最 大 负 和 丛 运 转 。 


监测 一 段 时 间 内 缺 页 中 断 的 数量 。 如 应 用 在 茶 一 数量 的 缺 页 中 断 下 表现 
民 好 ， 则 表明 其 为 系统 可 处 理 的 缺 页 中 断 数 量 底线 。 如 应 用 性 能 在 缺 页 
中 断 上 升 至 某 一 数值 时 开始 发 生 恶 化 ， 则 表明 该 数值 是 应 发 出 警告 的 临 
界 值 。 














在 serverSstatus 命 令 输出 的 recordstats 字 段 中 ， 可 看 到 每 个 数据 库 的 缺 
页 中 断 情 况 : 


> db.adminCommand({"serverStatus" : 1})["recordstats"] 


"accessesNotInMemory": 200632, 

"test": { 
"accessesNotInMemory": 1, 
"pageFaultExceptionsThrown": 0 


}, 


"pageFaultExceptionsThrown": 6633, 
"admin": { 
"accessesNotInMemory": 1247, 
"pageFaultExceptionsThrown": 1 
}, 
"bat"™: { 
"accessesNotInMemory": 199373, 
"pageFaultExceptionsThrown": 6632 
}, 
"config": { 
"accessesNotInMemory": 0, 
"pageFaultExceptionsThrown": 0 
}, 
"local": { 
"accessesNotInMemory": 2, 
"pageFaultExceptionsThrown": 0 
} 





其 中 的 accessesNotInMemory 表 示 ，MongoDB 目 局 动 以 来 必须 去 磁盘 上 
读 取 数据 的 次 数 。 


21.1.4 减少 索引 树 的 脱 靶 次 数 


访问 不 在 内 存 中 的 索引 条 目 时 效率 尤其 低下 ， 因 为 这 一 操作 通常 会 造成 
两 次 缺 页 中 断 ， 分 别 发 生 在 将 索引 条 目 和 文档 加 载 入 内 存 之 际 。 查 询 索 
引 造 成 缺 页 中 断 时 ， 我 们 称 其 为 索引 树 的 脱节 (btree miss) 。 
MongoDB 也 会 监测 索引 树 中 邯 (btree hits) 的 次 数 ， 即 无 需 到 磁盘 上 访 
问 索 引 。 图 21-4 中 可 看 到 这 两 个 数值 。 


索引 十 分 常用 ， 通 第 处 于 内 存 中 ， 但 如 果 内 存 过 小 而 索引 又 过 多 ， 或 访 
问 模式 不 正常 《例如 进行 大 量 的 表 扫 描 ) ， 都 会 造成 索引 树 脱 轩 次 数 的 
增长 。 通 单 情 况 下 ， 脱 肢 次 数 应 保持 在 很 小 的 数值 ， 因 此 ， 一 旦 发 现 该 
数值 过 高 ， 则 须 着 手 找 出 问题 的 源头 。 
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图 21-4 索引 树 状况 图 表 
21.1.5 IO 延迟 


IO 延迟 指 CPU 闲 置 等 待 磁 盘 响应 的 时 间 。 通 常情 况 下 ， 该 延迟 与 缺 页 中 
断 密切 相关 。 一 些 IO 延 迟 是 正常 的 ， 因 为 MongoDB 有 时 须 对 人 厂 盘 进行 

访问 ， 且 无 法 完全 避免 对 其 他 操作 的 妨碍 。 重 要 的 是 ， 需 保证 IO 延迟 不 
0 如 图 21-5 所 示 ， 这 表明 人 磁 稚 正在 超 负 荷 运 











cpu 时 间 +|oalwlgaleg | 
300 
200 
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图 21-5 IO 延迟 处 于 100% 左 碳 
MMS 可 通过 安装 插件 munin 来 监测 CPU 信息 。 如 需 查 看 安装 说 明 ， 请 访 


问 https:/mms.10gen.com/help/install.htmljhardware-monitoring-with- 


munin-node。 





21.1.6” 跟 踩 监测 后 人 台 刷 新 平均 时 间 


需 关 注 的 另 一 磁盘 参数 是 ，MongoDB 将 及 页 (dirty page) 写 入 磁盘 所 
花费 的 时 间 ， 即 后 人 台 刷 新 平均 时 间 (background flush average) 。 该 数 
据 相 当 于 一 个 警钟 。 一 旦 所 需 时 间 开 始 延长 ， 束 表示 磁盘 的 速度 跟 不 上 
需要 处 理 的 请 求 。 


MongoDB 默 认 会 以 至 少 每 分 钟 一 次 的 频率 ， 将 所 有 缓存 中 的 数据 刷新 
到 磁盘 中 。《 在 有 很 多 脏 页 的 情况 下 ，MongoDB 可 能 会 以 更 高 的 频率 
进行 刷新 ， 这 取决 于 操作 系统 。) 可 在 启动 mongod 时 ， 通 过 -- 
syncdelay 选 项 后 的 参数 ， 以 秒 为 单位 ， 来 配置 这 一 时 间 间 隅 的 值 。 同 
步 的 频率 越 高 ， 每 次 同步 的 数据 则 更 小 ， 但 效率 也 会 随 之 降低 。 











-全 但 实 
际 上 二 者 坚 无 关系 。 要 想 确 保 数 据 持 久 性 ， 应 使 用 日 记 系 统 
(journaling) 。syncdelay 只 用 于 调节 倒 盘 性 能 。 


通常 情况 下 ， 我 们 希望 后 台 刷 新 平均 时 间 能 够 低 于 一 秒 。 在 繁忙 的 机 哟 
上 或 慢 速 磁盘 上 ， 该 时 间 会 有 所 延长 ， 并 且 随 着 磁盘 超 负 荷 的 运行 ， 所 
再 时 间 会 变 得 越 来 越 长 。 在 茶 一 时 刻 ， 磁 盘 超 出 负荷 太 多 ， 以 至 于 数据 
刷新 用 时 超过 60 秒 ， 这 意味 着 MongoDB 会 不 断 尝 试 进行 刷新 (这 又 对 

磁盘 造成 了 更 大 的 负担 ) 。 磁 盘 刷 新 时 间 偶尔 出 现 高 峰 是 可 以 接受 的 。 

但 不 断 出 现 数 十 秒 的 长 时 间 写 入 则 是 我 们 不 希望 看 到 的 。 


图 21-6 为 后 台 刷 新 平均 时 间 的 曲线 变化 图 。 该 系统 的 人 硬盘 驱动 器 压 力 很 
大 ， 忆 是 需要 大 于 5 秒 的 时 间 来 写 入 前 一 分 钟 产 生 的 数据 。 速 度 有 些 
慢 ， 尤 其 是 经 常会 出 现 近 20 秒 时 长 的 高 峰 期 ， 所 以 可 能 有 必要 

将 syncdelay 的 值 调 低 一 些 ， 比 如 说 40 秒 ， 然 后 看 看 每 次 刷新 较 少 的 数 
据 是 否 会 有 帮助 。 








后 台 刷 新 平均 时 间 +.1.2.l7 .18.1.0 


2013/02/13 22:02: background flush avg:24.7 s 


nar 
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图 21-6 超 负荷 系统 的 后 台 刷新 平均 时 间 


如 果 后 合 刷新 平均 时 间 长 时 间 超 出 磁盘 所 能 承受 的 值 〈 可 能 只 超 了 几 秒 
钟 ) ， 束 应 该 开始 考虑 如 何 减轻 磁盘 的 负载 。 


MongoDB 只 需 刷 新 脏 数 据 ( 即 发 生 更 改 的 数据 ，， 所 以 后 台 刷 新 平均 
时 间 通 币 反 映 出 写 入 负载 的 大 小 ， 即 写 入 操作 和 写 入 数据 的 数量 。 因 

此 ， 如 果 写 入 负载 很 低 ， 后 合 刷新 平均 时 间 可 能 无 法 表现 出 磁盘 的 压力 
大 小 。 除 后 人 台 刷 新 平均 时 间 外 ， 还 应 同时 监测 IO 延迟 和 缺 页 中 断 的 情 

况 。 


21.2 计算 工作 集 的 大 小 


通常 情况 下 ， 内 存 中 数据 越 多 ，MongoDB 的 运行 速度 就 越 快 。 因 此 ， 
应 用 可 遇 到 如 下 情况 《运行 速度 从 快 到 慢 排列 ) 。 











。 整个 数据 集 均 在 内 存 中 。 虽 然 这 种 情况 很 不 错 ， 但 通常 代价 过 大 或 
不 可 行 。 此 种 情况 可 能 需要 应 用 的 响应 速度 足够 快 才 能 达成 。 
工作 集 处 于 内 存 中 。 这 是 最 常见 的 选择 。 

工作 和 集 是 应 用 所 使 用 的 数据 和 索引 。 这 可 能 是 其 所 有 内 容 ， 但 通常 
来 讲 会 存在 一 个 能 够 覆盖 90% 请 求 的 核心 数据 集 〈 如 用 户 集 合 和 最 
近 一 个 月 的 活动 ) 。 如 该 工作 集 存 在 于 物理 内 存 中 ，MongoDB 的 
运行 速度 通常 会 很 快 ， 因 为 它 只 有 在 遇 到 少数 “不 寻常 ”的 请 求 时 才 
需 访 问 磁盘 。 

索引 处 于 内 存 中 。 

















。 索引 的 工作 集 处 于 内 存 中 。 通 常 需要 右 平衡 索引 才能 达成 此 种 情况 
〈 详 见 第 5 章 内 容 ) 。 

。 内 存 中 没有 可 用 的 数据 子 集 。 可 能 的 话 ， 应 避免 这 种 情况 。 这 会 使 
数据 库 运 行 缓慢 。 


我 们 必须 通过 了 解 工 作 集 的 内 容 及 大 小 来 判断 能 否 将 其 存 入 内 存 。 计 算 
工作 集 大 小 的 最 好 方式 是 跟踪 分 析 一 些 常用 的 操作 ， 从 而 找 出 应 用 的 读 
写 数 据 有 多 少 。 例 如 ， 假 设 应 用 每 周 会 创建 2 GB 的 新 数据 ， 而 其 中 800 
MB 是 经 常 被 访问 的 。 用 户 通 常 只 会 访问 近 一 个 月 的 数据 ， 更 早 的 数据 
则 通常 不 会 被 用 到 。 这 样 工 作 集 大 小 可 能 是 3.2 GB (800MB/ 周 x4 周 ) 
左右 ， 再 根据 经 验 估计 一 下 索引 大 小 ， 加 起 来 大 概 是 5 GB。 


可 通过 跟 踩 监 测 一 段 时 间 内 被 访问 的 数据 来 考虑 这 一 问题 ， 如 图 21-7 所 
示 。 如 选择 尽快 满足 90% 的 请 求 ， 则 这 一 时 间 段 内 生成 的 数据 和 索引 即 
为 工作 集 ， 如 图 21-8 所 示 。 可 测量 这 一 时 间 的 长 短 ， 从 而 计算 出 数据 集 
的 增长 情况 。 注 意 ， 此 例 使 用 了 时 间 ， 即 数据 的 新 旧作 为 参数 ， 但 同时 
可 能 存在 更 适用 于 应 用 的 访问 模式 (时 间 是 最 常用 的 一 种 〉。 








被 访问 次 数 


数据 新 旧 程 度 
图 21-7 数据 新 旧 程 度 与 被 访问 次 数 的 关系 图 


被 访问 次 数 


工作 集 
数据 新 旧 程 度 
图 21-8: 工作 集 即 经 党 进行 的 请 求 所 访问 的 数据 


还 可 通过 MongoDB 的 状态 来 估计 工作 集 的 大 小 。MongoDB 保 留 有 一 个 
记录 内 存 内 容 的 图 表 ， 可 将 "workingset" : 1 参数 传 入 serverStatus 来 
得 知 这 些 内 容 : 


> db.adminCommand({"serverStatus" : 1，"workingSet"”: 1}) 


"workingSet" : { 
"note" : "thisIsAnEstimate", 
"pagesInMemory" : 18, 
"computationTimeMicros" :; 3685, 
"OverSeconds" : 2363 


}, 


pagesInMemory 指 MongoDB 认 为 当前 内 存 中 的 页 面 数 目 。 实 际 上 ， 
MongoDB 并 不 知道 其 确切 数值 ， 但 结果 应 该 很 接近 。 在 返回 信息 中 ， 
如 果 内 存 中 的 页 面 数目 与 内 存 大 小 相等 ， 则 该 数值 没有 什么 价值 ， 但 如 
果 页 面 数 目 小 于 内 存 大 小 ， 则 该 数值 可 能 与 工作 集 的 大 小 有 关 。 
serverstatus 的 返回 结果 默认 不 包含 workingset 字 段 。 

一 些 工作 集 的 例子 


假设 工作 集 大 小 为 40” GB。90% 的 请 求 能 够 命中 工作 集 ， 其 他 10% 则 需 








访问 工作 集 以 外 的 数据 。 如 果 有 500 GB 的 数据 和 50 GB 的 内 存 ， 则 工作 
集 可 全 部 放 入 内 存 中 。 一 旦 应 用 访问 了 需 经 常 访问 的 数据 〈( 即 预 热 过 

程 》》， 则 无 需 在 访问 工作 集 时 再 次 访问 人 磁盘。 有 10 GB 的 空间 提供 给 460 
GB 不 常 访问 的 数据 。 显 然 ，MongoDB 几 乎 总 是 要 到 磁盘 上 访问 工作 集 
以 外 的 数据 。 


男 一 方面 ， 假 设 工作 集 无 法 放 入 内 存 。 比 如 只 有 35 GB 的 内 存 。 这 种 情 
况 下 工作 集 通 种 会 占据 大 部 分 的 内 存 。 工 作 集 中 的 内 容 经 党 被 访问 ， 
而 更 有 可 能 留 在 内 存 中 ， 但 有 时 不 党 访问 的 数据 也 会 被 载 入 内 存 ， 从 而 
将 工作 集 (或 其 他 不 常 访问 的 数据 〉 挤 出 内 存 。 于 是 ， 内 存 和 磁盘 会 频 
繁 进行 数据 交换 ， 此 时 无 法 再 预测 访问 工作 集中 数据 的 性 能 。 


21.3 ”跟踪 监测 性 能 状况 


查询 的 性 能 通常 应 重点 监测 并 使 其 保持 稳定 。 有 几 种 方式 可 用 来 监测 
MongoDB 是 人 否 能 承受 当前 的 请 求 负 荷 。 


MongoDB 占 用 CPU 时 ， 大 部 分 时 间 花 在 了 处 理 器 的 读 写 上 《IO 延迟 很 

高 ， 其 他 指标 可 忽略 ) 。 然 而 ， 如 果 用 户 或 者 系统 占用 的 CPU 时 间接 近 
100% 〈 或 者 100% 乘 以 CPU 的 数量 ) ， 最 可 能 的 原因 是 一 个 常用 的 查询 
缺少 合适 的 索引 。 男 一 种 可 能 性 是 运行 了 太 多 的 MapRedues 或 其 他 的 服 
务 器 问 JavaScript 脚 本 。 有 必要 跟 踩 监测 CPU， 从 而 确保 所 有 查询 的 表现 
与 预想 中 的 相符 ， 特 别 是 在 部 署 了 一 个 新 版 本 的 应 用 之 后 。 


注意 ， 图 21-9 中 显示 的 是 正常 的 ， 如 果 缺 页 中 断 的 数量 较 低 ，IO 延 迟 可 
能 被 其 他 CPU 活动 所 拖累 。 只 有 在 其 他 活动 增长 时 ， 缺 少 合适 的 索引 才 
可 能 是 罪魁 祸首 。 














cpu 时 间 +|alwlogeale9 


2013/02/16 06:22: user:6.54 nice:0 system:3.29 lowalt:0. 1 irq:4.44e-3 somra'0.34 steal20 








图 21-9 ”一 个 有 着 最 小 IO 延迟 的 CPU 状态 图 。 上 面 的 曲线 表示 用 户 的 
CPU 时 间 ， 下 面 的 是 系统 的 CPU 时 间 。 其 他 数据 都 非常 接近 0% 


男 一 个 相似 的 指标 是 队列 长 上 度 ， 即 有 多 少 请 求 正 在 等 每 MongoBD 的 处 

理 。 请 求 在 等 待 锁 进行 读 写 操作 时 ， 即 被 认为 是 处 于 队列 中 。 图 21-10 

为 读 写 队列 随时 间 变 化 的 图 像 。 不 存在 队列 为 最 佳 (此 时 图 像 基本 为 空 
日 ) ， 但 无 需 针 对 这 一 指标 发 出 警报 。 在 一 个 或 忙 的 系统 中 ， 操 作 需 耗 
时 等 待 以 获取 所 需 的 锁 ， 这 一 点 很 常见 。 





队列 + A 0 


2013/02/14 13:07: total:0 readers:0 writers-0 
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图 21-10 读 写 队列 随时 间 变 化 的 图 像 


可 通过 队列 中 的 请 求 数量 ， 判 断 是 否 发 生 了 阻塞 。 通 常 队列 的 长 度 应 该 
很 低 。 一 个 很 长 且 始 终 存 在 的 队列 表示 mongod 无 法 承受 其 负载 。 应 尽 
快 减轻 该 服务 器 的 负 答 。 


可 将 队列 长 度 和 锁 比 例 (lock “percentage) 两 个 指标 结合 起 来 ， 锁 比例 
指 MongoDB 处 于 锁定 中 的 时 间 。 一 般 来 讲 ， 相 较 于 发 生 锁 定 ， 磁 盘 IO 
更 倾 回 于 限制 写 入 。 但 依然 有 必要 对 锁定 进行 跟踪 监测 ， 尤 其 是 磁盘 速 
度 快 ， 或 连续 写 入 多 的 系统 。 重 复 一 表 ， 锁 比例 过 高 的 最 普 衣 原因 之 一 
就 是 缺少 了 合适 的 索引 。 随 着 锁 比例 的 增加 ， 操 作 取 得 锁 所 需 的 平均 等 
待 时 间 越 来 越 长 。 因 此 ， 过 高 的 锁 比例 会 将 所 有 东西 拖 慢 ， 导 致 请 求 堆 
只 ， 以 及 系统 中 更 高 的 负荷 和 更 高 的 锁 比 例 。 图 21-11 中 显示 了 极 高 的 
锁 比 例 ， 这 种 情况 应 尽快 得 到 处 理 。 


随 痢 流量 大 小 的 变化 ， 锁 比例 常会 发 生起 伏 变 化 。 但 如 果 锁 比例 长 时 间 
保持 上 升 趋势 ， 则 表明 系统 所 受 的 压力 较 大 ， 应 做 一 些 调整 。 因 此 ， 应 
在 锁 比 例 长 时 间 保 持 过 高 的 值 后 再 触发 警报 〈 这 样 当 流量 突然 增加 时 残 
不 会 触发 警报 了 ) 。 

男 一 方面 ， 我 们 可 能 也 希望 在 锁 比 例 突然 升 高 时 ， 比 如 说 高 于 正常 值 

259% 时 触发 警报 。 该 数值 可 能 表明 系统 无 法 承载 突然 升 高 的 负 和 谷 ， 也 许 
应 该 提高 系统 的 性 能 和 容量 了 。 








锁 比 例 十 po + 0 


2013/02/13 11:08: lock %:93.3 


100 | , oy A 人 
i ™ od | A ¥ | le 了 人 | Wm | 由 ww 





12Feb 13Feb 








图 21-11 锁 比例 徘徊 在 100% 附 近 ， 这 种 情况 值得 注意 


除 全 局 的 锁 比 例外 ，MongoDB 也 对 每 个 数据 库 的 锁 比 例 进 行 跟踪 。 因 
此 ， 如 宁 某 数据 库 有 很 多 的 连接 ， 可 单独 查看 其 锁 比 例 。 


跟踪 监测 空余 空间 


男 一 基本 但 却 很 重要 的 监测 指标 为 磁盘 的 使 用 情况 ， 即 监测 磁盘 的 空余 
空间 。 有 时 用 户 直 到 磁 副 空间 被 占 满 时 才 想 起 处 理 这 一 问题 。 通 过 监测 








人 
了 准备 。 


磁盘 空间 不 足 时 ， 有 以 下 几 个 选项 。 


如 琳 在 使 用 分 片 ， 那 就 增加 一 个 分 片 。 

依次 关闭 副本 集中 的 每 个 成 员 ， 复 制 数 据 到 更 大 的 磁盘 上 进行 挂 

载 。 重 局 该 成 员 ， 然 后 对 下 一 成 员 进 行 同样 的 操作 。 

把 副本 集中 的 成 员 亚 换 成 更 大 驱动 絮 的 成 员 : 移 除 旧 成 员 ， 添 加 新 
成 员 。 使 新 成 员 追 赶 上 副本 集中 的 其 余 成 员 。 对 集合 中 的 每 个 成 员 
重复 此 操作 。 

如 使 用 了 directoryperdb 选 项 ， 且 数据 库 增 长 速度 非常 快 ， 可 将 数 
据 库 移 至 其 驱动 器 和 内。 挂 载 驱动 露 为 数据 目录 。 这 样 就 可 不 必 移 动 
其 他 数据 内 容 了 。 


无 论 采 取 哪 种 方法 ， 请 提前 做 好 准备 ， 从 而 使 对 应 用 产生 的 影响 降 至 最 
0 0 
| 一 处 。 


21.4 监控 副本 集 


对 副本 集中 的 落后 〈lag) 和 oplog (operation log) 长 度 进行 跟踪 监测 十 
分 重要 。 

当 备 份 节点 无 法 与 主 节 点 保持 一 致 时 ， 就 产生 了 沙 后 。 主 节点 最 后 一 次 
操作 的 时 间 和 备份 节点 最 后 一 次 操作 的 时 间 差 值 ， 即 落后 的 值 。 例 如 ， 
一 个 备份 节点 刚刚 完成 了 一 次 操作 ， 其 时 间 惟 为 3:26:00 p.m.， 主 市 点 刚 
刚 完 成 了 一 次 操作 ， 其 时 间 惟 为 3:29:45 p.m.， 此 时 落后 的 值 即 为 3 分 45 
秒 。 洲 后 的 值 越 接 近 0 越 好 ， 目 通常 为 又 秒 级 别 。 如 有 果 一 个 备份 节点 能 
够 与 主 节 点 保持 同步 ， 副 本 集落 后 的 值 应 如 图 21-12 所 示 ， 基 本 你 持 为 
0。 


























16:00 17:00 18:00 19:00 20:00 21:00 


图 21-12 一 个 不 存在 落后 的 副本 集 ， 这 是 最 理想 的 状态 


如 果 备 份 节点 的 复制 速度 赶不上 主 节 点 的 写 入 速度 ， 就 会 开始 出 现 非 0 
的 落后 值 。 最 极端 的 情况 是 副本 集 发 生 了 阻 竖 : 由 于 茶 种 原因 ， 副 本 集 
无 法 再 接受 任何 操作 。 这 种 情况 下 ， 每 经 过 一 秒 ， 落 后 的 值 就 会 增加 一 
秒 ， 在 图 像 中 呈现 一 个 陡坡 的 样子 ， 如 图 21-13 所 示 。 这 可 能 是 由 于 网 
络 问题 引起 的 ， 也 可 能 是 由 于 缺少 了 _id 索 引 ， 副 本 集 要 求 每 个 集合 都 
拥有 这 一 索引 才能 正常 工作 。 


如 果 集 合 缺 少 了 _id 索 引 ， 将 服务 器 脱离 副本 和 集 作 为 一 个 独立 服务 器 启 
动 ， 然 后 建立 id 索引 。 确 保 建 立 的 _ dn 索引 (unique 
index) 。 索 引 建 立 完成 后 ， 除 非 删 除 整 个 集合 ， 否 则 _id 索 引 不 能 发 生 
删除 或 更 改 。 
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图 21-13 ”副本 集 及 生 阻 塞 ， 并 于 2 月 10 日 前 开始 进行 恢复 。 红 色 线 条 


表示 服务 器 的 重新 局 动 


如 系统 超 负 衍 运行 ， 备 份 节点 可 能 会 逐渐 被 主 节点 落下 。 但 图 中 通 各 不 
会 显示 出 特征 明显 的 “每 秒 增加 一 秒 ” 的 陡坡 ， 因 为 备份 节点 还 是 进行 了 
一 些 复制 的 。 然 而 ， 备 份 节 点 到 底 是 因为 无 法 与 高 峰 流 量 保持 一 致 而 被 
沙 下 的 ， 还 是 逐渐 被 主 节点 落下 的 ， 这 一 扣 十 分 重要 。 


主 节点 不 会 为 了 “帮助 ”备份 节点 退 赶 上 来 而 限制 写 入 ， 所 以 在 超 负荷 运 
行 的 系统 上 备份 节点 奶 赶 不 上 的 情况 时 有 发 生 《〈 尤 其 是 MongoDB 中 与 
入 的 优先 级 比 读 取 要 咒 ， 这 意味 看 副本 集 的 性 能 很 大 程度 上 取决 于 主 市 
扩 ) 。 可 在 写 入 时 使 用 "“w” 参 数 来 强制 限制 主 节 点 的 写 入 。 也 可 通过 将 
请 求 路 由 至 其 他 节点 ， 从 而 降低 备份 节点 的 负载 。 


而 在 一 个 负载 极 低 的 系统 上 ， 可 在 副本 集落 后 值 的 图 像 中 看 到 妃 一 种 有 
趣 的 图 案 ， 即 突然 出 现 的 高 峰值 ， 如 图 21-14 所 示 。 这 些 峰 值 表示 的 并 
不 是 真正 的 落后 ， 而 是 由 抽样 的 变化 产生 的 。mongod 每 隔 几 分 钟 处 理 
一 个 写 入 操作 。 落 后 的 值 是 主 节点 和 备份 节点 的 时 间 惟 差 值 ， 而 对 备份 
节点 时 间 戳 的 测量 恰好 发 生 在 主 节 点 的 写 入 操作 之 前 ， 这 使 得 备份 贡 损 
ee 
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图 21-14 写 入 操作 数量 较 少 的 系统 会 产生 “ 伪 落 后 ” 


男 一 需要 跟踪 监测 的 重要 指标 是 每 个 节点 的 oplog 长 度 。 每 个 可 能 成 为 
主 节 点 的 节点 都 应 拥有 一 份 长 度 超过 一 天 的 oplog。 如 一 个 节点 可 能 成 
为 男 一 个 节点 的 同步 源 (sync source) ， 则 应 拥有 一 份 长 度 足 够 进行 初 
始 化 同步 (initial sync) 的 oplog。 图 21-15 为 标准 的 oplog 长 度 图 像 。 访 
oplog 长 度 极 佳 ， 达 1111 小 时 ， 即 超过 一 个 月 的 数据 ! 通常 ， 在 保证 人 磁 








盘 空 间 充 足 的 前 提 下 ，oplog 应 尽 可 能 地 长 。oplog 几 乎 不 占用 内 存 。 而 
且 长 oplog 的 缺乏 ， 可 能 会 市 来 痛 否 的 回忆 。 
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图 21-15 ”典型 的 oplog 长 度 图 像 


图 21-16 为 较 短 的 oplog 和 变化 的 流量 引起 的 稍 显 不 同 寻常 的 变化 。 运 行 
仍旧 正常 ， 但 该 机 器 上 的 oplog 可 能 太 短 了 6 到 11 小 时 的 维护 时 段 〉。 
管理 员 有 机 会 的 话 应 将 该 oplog 的 长 度 加 以 延长 。 
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图 21-16 每 天 有 一 次 流量 高 峰 的 应 用 oplog 长 度 


第 22 章 备份 


对 系统 进行 定期 备份 是 很 重要 的 。 对 于 大 多 故障 而 言 ， 备 份 是 很 好 的 保 
护 措 施 ， 只 有 很 少 的 故障 无 法 通过 恢复 干净 的 备份 得 到 解决 。 本 章 我 们 
将 学 习 下 列 有 关 备 份 的 第 用 选项 : 


。 单一 服务 器 的 备份 ; 
。 对 副本 集 进行 备份 时 的 特别 考虑 ; 
。 如 何 对 一 个 分 片 集群 进行 备份 。 


只 有 在 有 信心 能 在 紧急 情况 下 完成 迅速 部 车 的 情况 下 ， 备 份 才 是 有 用 
的 。 所 以 ， 无 论 选择 了 哪 种 备份 技术 ， 一 定 要 对 备份 及 恢复 备份 的 操作 
进行 练习 ， 直 到 了 然 于 心 。 


22.1 对 服务 器 进行 备份 


备份 有 许多 种 方法 。 但 无 论 采 用 哪 种 方法 ， 备 份 操作 都 会 增加 系统 的 负 
担 : 备份 通常 需 将 所 有 数据 读 取 到 内 存 中 。 因 此 ， 通 常情 况 下 ， 应 对 副 
eR 
名 进行 备份 。 


如 非特 殊 声 明 ， 本 节 中 的 所 有 技术 均 适 用 于 任何 mongod 程 序 ， 无 论 是 
独立 服务 器 还 是 副本 集成 员 。 


22.1.1 文件 系统 快照 


生成 文件 系统 快照 (snapshot) 是 最 简单 的 备份 方法 。 然 而 ， 该 方法 的 
实现 需要 两 点 条 件 ， 即 文件 系统 本 身 支 持 快照 技术 ， 以 及 在 运行 
mongod 时 必须 开启 日 记 系 统 (journaling) 。 如 系统 满足 这 两 点 条 件 ， 
则 该 方法 无 需 其 他 准备 ， 只 需 生成 快照 即 可 ， 时 间 不 限 。 


在 恢复 时 ， 确 保 mongod 没 有 在 运行 。 从 快照 恢复 数据 的 确切 命令 取决 
于 不 同 的 文件 系统 ， 不 过 基本 上 就 是 恢复 快照 ， 然 后 局 动 mongod 即 

可 。 如 果 是 对 正在 运行 的 系统 生成 快照 ， 那 么 快照 中 的 数据 内 容 本 质 上 
相当 于 使 用 kil11 -9 命令 强制 终止 nongod 后 的 数据 内 容 。 因 此 ，mongod 
在 局 动 时 会 对 日 志 〈journal) 文件 进行 重 放 〈replay) ， 然 后 开始 正常 

















运行 。 
22.1.2 复制 数据 文件 
为 一 种 备份 方式 是 复制 数据 目录 中 的 所 有 文件 。 没 有 文件 系统 的 支持 ， 


我 们 就 无 法 同时 复制 所 有 文件 ， 因 此 在 进行 备份 时 必须 防止 数据 文件 发 
生 改变 。 可 使 用 fsynclock 命 令 做 到 这 一 点 : 


> db.fsyncLock() 


该 命令 锁定 (ock) 数据 库 ， 禁 止 任何 写 入 ， 并 进行 同步 (fsync) ， 即 
0 以 确保 数据 目录 中 的 文件 是 最 新 的 ， 且 不 会 被 
更 改 。 


一 旦 运行 了 这 一 命令 ，mongod 会 将 之 后 的 所 有 写 入 操作 加 入 队列 等 
待 ， 且 在 解锁 前 不 会 对 这 些 写 入 操作 进行 处 理 。 注 意 ， 这 一 命令 会 停止 
所 有 数据 库 的 写 入 操作 ， 而 不 只 是 已 连接 的 那个 数据 库 。 

当 fsynclock 命 令 返 回 命 令 行 后 ， 复 制 数据 目录 中 的 所 有 文件 到 备份 位 
置 。 在 Linux 中 ， 可 使 用 以 下 命令 等 : 


$ cp -R /data/db/* /mnt/external-drive/backup 














确保 复制 了 数据 目录 中 的 每 一 个 文件 和 文件 夹 到 备份 位 置 。 漏 挥 文件 或 
文件 夹 可 能 会 损坏 备份 或 使 其 不 再 可 用 。 


数据 复制 完成 后 ， 解 锁 数据 库 ， 使 其 能 够 再 次 进行 写 入 操作 : 


> db.fsyncUnlock() 


数据 库 即 开始 正常 处 理 写 入 操作 。 


注意 ， 吴 份 验证 和 fsynclock 命 令 存 在 一 些 锁定 问题 。 如 采 司 用 了 续 份 
验证 ， 则 在 调用 fsyncLock() 和 fsyncunlock() 期 间 不 要 关闭 shell。 如 果 
在 这 期 间断 开 了 连接 ， 则 可 能 无 法 进行 重新 连接 ， 并 不 得 不 重 局 
mongod。fsyncLock() 的 设 定 在 重启 后 不 会 保持 生效 ，mongod 总 是 以 非 
锁定 模式 局 动 。 








除 使 用 fsynclock 外 ， 还 可 关闭 mongod， 复 制 文件 ， 然 后 重启 mongod。 
人 即 刷新 到 磁盘 ， 防 止 备份 期 间 出 现 新 的 与 
入 操作 。 


若 要 恢复 数据 目录 备份 ， 请 保证 mongod 没 有 在 运行 ， 且 所 有 待 恢复 的 
数据 目录 为 空 。 将 备份 的 数据 文件 复制 到 数据 目录 ， 然 后 局 动 
mongod。 例 如 ， 下 列 命令 会 使 用 前 面 提 及 的 命令 恢复 备份 文件 : 











$ cp -R /mnt/external-drive/backup/* /data/db/ 
$ mongod -f mongod.conf 





忽略 那些 有 关 复 制 部 分 数据 目录 的 警告 信息 。 只 要 知道 要 复制 哪些 文 
件 ， 即 可 使 用 这 种 方式 备份 单独 的 数据 库 。 例 如 ， 要 备份 名 为 myDB 的 
数据 库 ， 只 需 复 制 所 有 名 为 myDB.* 的 文件 ， 包 括 后 级 名 为 .ns 的 文件 。 
如 使 用 了 --directoryperdb 选 项 ， 只 需 复 制 该 数据 库 对 应 的 整个 数据 目 
录 。 





可 复制 数据 库 对 应 的 文件 到 数据 目录 ， 完 成 指定 数据 库 的 恢复 。 如 需 进 
行 这 种 部 分 恢复 ， 应 确保 数据 库 上 一 次 是 正常 关闭 的 。 如 遇 到 崩 尝 或 突 
然 停 机 ， 不 要 尝试 恢复 一 个 单独 的 数据 库 ， 而 应 用 备份 文件 蔡 换 整个 数 
据 目 录 ， 然 后 局 动 mongod， 从 而 允许 日 记 文 件 进行 重 放 。 





sd 
\ 






由 ,下 要 同时 使 用 fsyncLock 和 mmongodump。 数据 库 被 锁定 也 许 
这 取决 于 数据 库 正在 进行 的 其 他 
中 Fe 


22.1.3 ”使 用 mongodump 

最 后 一 种 备份 方式 是 使 用 mongodump。 之 所 以 最 后 提 到 它 ， 是 因为 
mongodump 有 些许 缺点 。 它 备份 和 恢复 的 速度 较 慢 ， 在 处 理 副 本 集 时 存 
在 一 些 问题 〈 参 见 22.2 节 ) 。 然 而 它 也 存在 以 下 优点 : 当 想 备份 单独 的 
数据 库 、 集 合 甚至 集合 中 的 子 集 时 mongodump 是 个 很 好 的 选择 。 


运行 mongodump  --help， 可 看 到 mongodump 具 有 很 多 选项 。 此 处 我 们 重 








点 关注 那 些 与 备份 相关 的 实用 选项 。 


要 备份 所 有 数据 库 ， 只 需 运 行 nongodump 即 可 。 如 果 在 同一 人 台 机 器 上 运 
行 nongod 和 mongodump， 只 需 指定 mongod 运 行 时 占用 的 端口 即 可 : 


$ mongodump -p 31000 








mongodump 会 在 当前 目录 建立 一 个 转 储 〈dump) 目录 ， 其 中 包含 了 一 
份 所 有 数据 的 倾 外 。 转 储 目录 中 的 目录 和 子 目 录 由 数据 库 和 集合 构成 。 
真正 的 数据 存放 在 扩展 名 为 .bson 的 文件 里 ， 其 中 以 BSON 格 式 依次 存储 
了 集合 中 的 所 有 文档 。 可 使 用 MongoDB 自 融 的 bsondump 工 具 查 看 .bson 
区 


使 用 mongodump 时 其 至 无 需 服务 器 处 于 运行 状态 : 可 使 用 - -dbpath 选 项 
来 指定 数据 目录 ，mongodump 会 使 用 指定 的 数据 文件 进行 备份 。 


$ mongodump --dbpath /data/db 














如 果 mongod 正 在 运行 ， 则 不 应 使 用 - -dbpath 选 项 。 


mongodump 存 在 一 个 问题 ， 即 它 并 非 进 行 快照 备份 ， 也 就 是 说 在 备份 的 
过 程 中 ， 系 统 可 能 会 继续 进行 号 入 操作 。 于 是 可 能 出 现 ， 开 始 备 份 时 

mongodump 先 对 数据 库 A 进 行 转 储 ， 随 后 在 mongodump 下 在 对 数据 库 B 
进行 转 储 的 同时 ， 删 除了 数据 库 A。 然 而 mongodump 已 经 对 数据 库 A 进 
1 于 是 最 终 转 储 得 到 的 结果 ， 是 一 个 在 原 服 务 器 上 并 不 存在 的 


为 避免 这 种 情况 的 发 生 ， 如 果 运 行 nongod 时 使 用 了 - -replset 选 项 ， 则 
可 使 用 mongodump 的 - -oplog 选 项 。 这 会 将 转 储 过 程 中 服务 器 进行 的 所 
有 操作 记录 下 来 ， 这 样 在 恢复 备份 时 就 会 重新 执行 这 些 操 作 。 这 样 束 可 
以 得 到 源 服务 器 上 某 一 时 间 点 的 数据 快照 。 

如 果 给 mongodump 一 个 副本 集 的 连接 字 串 〈 例 

如 ，setName/seed1, seed2, seed3) ， 如 果 备 份 节点 存在 的 话 ， 它 会 自动 
选择 一 个 备份 节点 进行 转 储 。 


恢复 mongodump 产 生 的 备份 ， 可 使 用 mongorestore 工 具 : 





$ mongorestore -p 31000 --oplogReplay dump/ 


如 果 转 储 数 据 库 时 使 用 了 --oplog 参 数 ， 运 行 mongorestore 时 必须 使 用 -- 
oplogReplay 选 项 ， 以 得 到 某 一 时 间 点 的 快照 。 


如 宁 在 运行 的 服务 硕 上 进行 数据 丛 换 ， 可 使 用 --drop 选 项 ， 以 在 恢复 一 
个 集合 前 先 删除 它 。 当 然 此 选项 并 非 必 选项 。 


随 着 版 本 的 变化 ，mongodump 和 mongorestore 命 令 的 具体 作用 和 用 法 发 
生 了 改变 。 为 避免 兼容 性 问题 ， 应 尽量 使 用 同 版 本 的 mongodump 和 
mongorestore。 可 运行 mongodump --version 和 mongorestore --Version 


来 查看 各 目的 版 本 。 


1. 使 用 mongodump 和 `mongorestore 来 转移 集合 和 数据 库 


可 从 转 储 中 恢复 完全 不 同 的 数据 库 和 集合 。 当 在 不 同 环境 中 使 用 不 同 的 
(例如 ，dev 和 prod) ， 但 集合 的 名 称 相 同时 ， 这 一 特性 会 
很 实用 。 


将 一 个 扩展 名 为 .bson 的 文件 恢复 为 特定 的 数据 库 和 集合 ， 只 需 在 命令 行 
中 指定 恢复 目标 ; 


$ mongorestore --db newDb --collection SomeotherColl dump/oldDB/oldColl.bson 


1. 管理 唯一 索引 市 来 的 混乱 


在 任何 集合 中 ， 如 果 存 在 除 _id 以 外 的 其 他 唯一 索引 (unique index) ， 
则 应 考虑 使 用 mongodump 和 mongorestore 以 外 的 备份 方式 。 具 体 地 说 ， 
唯一 索引 要 求 复制 期 间 数 据 不 发 生 可 能 破坏 其 唯一 索引 约束 的 改变 。 最 
0 法 是 先 想 办 法 “冻结 ?数据 ， 然 后 使 用 前 两 节 中 提 到 的 方法 来 进 
行 备份 。 


如 果 决 定 使 用 mongodump 和 mongorestore 进 行 备份 ， 那 么 在 恢复 备份 
时 ， 可 能 需要 对 数据 进行 一 定 的 预 处 理 。 


22.2 ”对 副本 集 进 行 备 份 








通常 ， 应 该 对 备份 节点 进行 备份 : 这 会 为 主 节点 减轻 负担 ， 也 可 以 在 不 
影 啊 应 用 的 情况 下 锁定 备份 节点 《只 要 应 用 不 同 备份 节点 发 送 读 取 请 
求 ) 。 可 使 用 之 前 提 到 过 的 三 种 方式 中 的 任意 一 种 ， 对 副本 集中 的 成 员 
进行 备份 ， 但 推荐 使 用 文件 系统 快照 或 复制 数据 文件 的 方式 。 这 两 种 方 
式 在 应 用 于 副本 集 备份 节 氮 时 无 需 做 任何 修改 。 


副本 集 局 用 后 ， 使 用 mongodump 进 行 备份 就 不 那么 简 音 了。 首先， 如果 
使 用 mongodump， 则 必须 在 备份 时 使 用 - -oplog 选 项 ， 来 得 到 一 个 基于 

某 时 间 点 的 快照 ;否则 备份 的 状态 不 会 和 任何 其 他 集群 成 员 的 状态 相 吻 
合 。 否则 被 恢复 的 成 员 就 不 知道 应 该 

同步 到 哪里 。 


要 从 mongodump 生 成 的 备份 中 ， 对 副本 集成 员 进 行 恢 复 ， 可 将 该 成 员 作 
为 一 个 单独 的 服务 器 启动 ， 此 时 要 使 用 一 个 空 的 数据 目录 。 首 先 ， 像 上 
一 节 中 提 到 过 的 那样 ， 使 用 - -oplogReplay 选 项 运行 mongorestore。 现 在 
它 应 该 包含 了 一 份 完 整 的 数据 副本 ， 但 还 需要 一 份 oplog。 运 

行 createcollection 命 令 来 建立 oplog: 

















> use local 
> db.createCollection("oplog.rs", {"capped" : true, "size" : 10000000}) 


以 字 市 为 单位 指定 集合 大 小 。 可 参见 12.4.6 太 ， 了 解 更 多 与 此 相关 的 内 


现在 需要 填充 oplog。 最 简单 的 方式 是 用 备份 中 的 oplog.bson 文 件 来 填充 
local.oplog.rs 集 合 : 


$ mongorestore -d local -c oplog.rs dump/oplog.bson 


注意 ， 这 并 不 是 对 于 oplog 的 转 储 文件 (dump/local/oplog.rs.bson) ， 而 
是 进行 转 储 期 间 发 生 的 操作 。 一 旦 mongorestore 完 成 ， 即 可 将 服务 器 作 
为 副本 集成 员 重 新 启动 。 


22.3 ”对 分 片 集群 进行 备份 
不 可 能 对 正在 运行 的 分 片 集群 进行 “完美 地 ”备份 ， 因 为 无 法 及 时 得 到 集 


群 在 菏 一 时 间 扣 完整 状态 的 快照 。 然 而 ， 通 常情 况 下 痢 会 避 开 该 限制 ， 
因为 随 关 集群 的 增 大 ， 从 备份 中 恢复 整个 集群 的 可 能 性 越 来 越 小 。 











此 ， 在 面 对 分 片 集群 时 ， 我 们 更 关注 分 块 的 备份 ， 即 单独 备份 配置 服务 
器 和 副本 集 。 


在 对 分 片 集群 进行 备份 和 恢复 操作 之 前 ， 应 先天 闭 平 衡器 。 这 是 因为 在 
过 于 混乱 的 环境 中 是 无 法 得 到 一 份 前 后 一 致 的 快照 的 。 有 关 平 衡器 开启 
与 天 闭 的 操作 说 明 ， 请 参见 16.4 节 。 


22.3.1 备份 和 恢复 整个 集群 


当 集 群 很 小 或 正在 进行 开发 时 ， 我 们 可 能 想 要 转 储 和 恢复 整个 集群 。 要 
达到 这 一 目的 ， 应 先 关 闭 平衡 器 ， 然 后 通过 mongos 运 行 nongodump。 
这 会 在 mongodump 所 运行 的 机 器 上 建立 所 有 分 片 的 备份 。 


要 恢复 此 种 备份 ， 需 运行 mongorestore 并 连接 到 一 个 mongos。 


关闭 平衡 器 后 ， 可 使 用 文件 系统 快照 或 复制 数据 目录 的 方式 ， 备 份 配置 
服务 如 和 每 一 个 分 片 。 然 而 不 可 避免 的 是 ， 我 们 不 可 能 在 完全 相同 的 时 
刻 得 到 这 些 备 份 ， 这 可 能 造成 问题 。 另 外 ， 在 打开 平衡 器 时 会 进行 数据 
合并 ， 在 分 片 中 备份 的 茶 些 数据 可 能 会 由 此 消失 。 


22.3.2 备份 和 恢复 单独 的 分 片 


更 多 时 候 ， 只 需 恢 复 集 群 中 的 茶 个 单独 分 片 。 如 果 不 是 很 挑剔 的 话 ， 可 
使 用 刚刚 在 前 面 提 到 过 的 单独 服务 器 处 理 方法 进行 分 厂 的 备份 恢复 。 


有 一 个 问题 要 着 重 注意 : 假设 在 星期 一 对 集群 进行 了 备份 。 到 了 星期 
由， 磁盘 发 生 损坏 ， 我 们 不 得 不 恢复 备份 。 然 而 ， 在 这 儿 天 里 ， 新 的 数 
据 块 可 能 移动 到 了 这 一 分 片上 。 而 周一 进行 的 分 片 备份 中 并 不 包含 这 些 
新 增 的 数据 块 。 也 许 我 们 能 够 使 用 配置 服务 器 的 备份 ， 找 到 这 些 消失 了 
的 数据 块 在 星期 一 时 的 位 置 ， 但 这 比 只 是 恢复 分 户 要 困难 得 多 。 在 大 多 
数 情况 下 ， 恢 复 分 片 ， 忽 略 那些 消失 的 数据 块 ， 是 更 好 的 选择 。 


可 直接 连接 到 一 个 分 片上 来 恢复 备份 ， 而 不 需要 通过 mongos。 
22.4 ”使 用 mongooplog 进 行 增 量 备份 


以 上 提 及 的 备份 方式 ， 即 使 和 上 一 次 备份 时 相 比 ， 只 发 生 了 很 小 的 更 
改 ， 也 都 必须 对 所 有 数据 进行 一 次 完整 的 复制 。 如 宋 数据 和 写 入 量 有 很 














大 的 关系 ， 那 么 我 们 可 能 和 希望 了 解 一 下 增 量 备份 。 


与 每 天 或 每 周 进 行 一 次 完整 的 数据 复制 不 同 ， 我 们 只 需 进 行 一 次 备份 ， 
然后 使 用 oplog 来 备份 这 之 后 的 所 有 操作 。 这 种 扩 术 比 之 前 提 及 的 技术 
都 要 复杂 ， 因 此 除非 确实 需要 ， 人 否则 应 尽量 选择 其 他 扩 术 。 


这 一 技术 需要 两 台 运 行 mongod 的 机 器 ， 即 机 器 A 和 机 器 B。A 是 主机 器 
《可 能 是 副本 集中 的 备份 节点 ) ，B 则 用 来 进行 备份 : 











1. 记录 下 A 的 oplog 中 最 近 一 次 的 操作 时 间 (Coptime) : 


> op = db.oplog.rs.find().sort({$natural: -1}).1imit(1).next(); 
> start = op['ts']['t']/1000 


把 该 数值 记录 在 安全 的 地 方 一 一 等 下 会 用 到 它 。 


2. 对 数据 进行 备份 ， 使 用 以 上 提 及 的 任何 一 种 方式 ， 得 到 一 份 基 于 茶 
时 间 点 的 备份 。 恢 复 备份 至 B 上 的 数据 目录 。 


3. 定期 添加 A 上 的 操作 至 B， 从 而 完成 数据 的 复制 。MongoDB 的 发 行 
版 中 自 带 了 一 个 特殊 的 工具 mongooplog〈 读 作 mon-goop-log) ， 将 
这 一 操作 变 得 简单 。mongooplog 从 一 台 服 务 器 的 oplog 中 复制 数 
据 ， 并 将 其 中 的 操作 应 用 在 男 一 台 服 务 器 的 数据 集 上 。 在 B 上 运 
行 : 








$ mongooplog --from A --seconds 1234567 


其 中 --seconds 选 项 后 跟 的 参数 ， 应 为 第 一 步 中 计算 出 的 start 变 量 
i 再 额外 加 上 几 秒 (重复 地 重 放 操作 也 好 过 数据 
> 


这 使 得 备份 更 接近 最 新 的 数据 。 这 种 技术 有 些 像 是 手动 地 同步 一 个 
备份 节点 ， 所 以 我 们 也 许 只 是 想 在 备份 节 点 上 使 用 延 时 复制 以 代 着 
量 备份 





第 23 划 ”部署 MongoDB 
本 章 将 会 就 部 罩 生 产 服务 器 给 出 相关 建议 。 上 有 具体 来 讲 ， 包 括 以 下 几 方 
面 : 





选 购 和 硬件、 挑选 设置 方法 ; 

使 用 虚拟 化 环境 ; 

重要 的 内 核 与 磁盘 IO 设 定 ; 

网 络 设置 : 哪些 组 件 之 间 需 要 建立 连接 。 


23.1 设计 系统 结构 

通常 ， 我 们 会 希望 对 系统 进行 优化 ， 以 保证 数据 安全 和 存 取 速度 。 本 节 
将 探讨 在 选择 磁盘 、RAID 磁盘 阵列 ) 配置 、CPU 等 硬件 以 及 基本 软 
件 组 件 的 过 程 中 ， 达 成 以 上 目标 的 最 佳 方法 。 

23.1.1 选择 存储 介质 


如 采 只 考 碟 性 能 ， 可 按照 以 下 顺序 选择 介质 ， 从 而 进行 数据 存 取 : 





时 内 存 ; 
。 固态 人 磁盘 ; 
。 机械 磁盘 。 


可 惜 ， 大 多 情况 下 ， 由 于 预算 有 限 或 数据 过 多 ， 无 法 将 所 有 数据 存 入 内 
存 ， 而 固态 磁盘 又 过 于 昂贵 。 因 此 ， 标 准 的 部 署 方案 是 使 用 较 少 的 内 存 
空间 〈 上 有 具体 大 小 取决 于 总 数据 大 小 ) 和 较 大 的 机 械 磁 盘 空 间 。 这 种 情况 
下 需 注 意 ， 工 作 集 大 小 应 小 于 内 存 容 量 ， 同 时 应 做 好 在 工作 集 增长 时 进 
行 设备 扩展 的 准备 。 

如 果 没 有 经 费 限制 ， 那 就 去 购买 更 多 的 内 存 或 固态 磁盘 。 

从 内 存 中 读 取 数据 需 几 纳 秒 的 时 间 〈 比 如 100 纳 秒 ) 。 相 反 地 ， 从 磁盘 


中 读 取 数据 需 几 毫秒 的 时 间 (比如 10 毫 秒 〉 。 单 看 这 两 个 数字 很 难 想像 
出 二 者 间 的 差距 ， 但 如 果 我 们 将 它们 按 比 例 放 大 就 会 明白 : 如 果 访 问 内 

















存 耗 时 1 秒 钟 ， 则 访问 磁盘 需 耗 时 超过 1 天 的 时 间 ! 
100 纳 秒 x10 000 000=1 秒 
10 毫 秒 x10 000 000=1.16 天 


这 些 只 是 近似 的 计算 《磁盘 可 能 略 快 或 内 存 略 慢 ) ， 但 差距 的 大 小 不 会 
有 太 大 差别 。 所 以 我 们 会 想 要 尽量 少 地 访问 磁盘 。 


即使 是 更 快 的 机 械 磁 盘 ， 也 不 会 使 磁盘 读 取 时 间 缩 短 太 多 ， 所 以 没有 必 
要 花 太 多 钱 在 这 种 磁盘 上 。 更 多 的 内 存 或 固态 磁盘 效果 会 更 好 。 


一 个 示例 


图 23-1 至 图 23-6 展 示 了 固态 磁盘 的 优势 。 这 些 图 片 中 显示 的 ， 是 一 个 在 8 
月 8 日 中 午 上 线 的 新 分 片 的 情况 。 开 始 时 仅 在 机 械 磁 盘 上 部 署 了 一 个 分 
片 ， 随 后 又 在 固态 磁盘 上 部 署 了 一 个 新 的 分 片 ， 接 下 来 两 个 分 片 同 时 运 
1 


如 图 23-1 所 示 ， 机 械 磁 盘 的 性 能 峰值 可 接近 每 秒 5000 次 碍 询 ， 但 一 般 情 
况 下 只 能 做 到 每 秒 几 百 次 查询 。 
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图 23-1 ”在 机 械 磁 盘 上 进行 僵 询 的 情况 


作为 对 照 ， 图 23-2 中 的 图 表 显 示 了 在 固态 人 磁盘 上 进行 查询 的 状况 。 固 态 
磁盘 的 性 能 可 保持 每 秒 处 理 5000 次 请 求 ， 峰 值 则 可 达到 每 秒 30000 次 ! 
这 一 新 的 分 片 完 全 可 以 独立 承担 整个 集群 的 工作 。 
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图 23-2 在 固态 磁盘 上 进行 查询 的 情况 


有 关机 械 人 磁盘 和 固态 磁盘 的 对 比 中 ， 男 一 点 值得 注意 的 是 频繁 的 人 磁盘 访 
问 对 系统 的 压力 大 小 。 在 使 用 机 械 磁 盘 的 服务 器 上 ， 我 们 可 从 其 硬件 监 
控 信 息 〈 图 23-3) 中 看 到 ， 人 磁盘 工作 十 分 繁忙 。 图 中 位 于 上 部 的 曲线 表 
示 IO 延 迟 ， 即 CPU 等 待 磁盘 IO 的 时 间 所 占 总 时 间 的 百分比 。 可 以 看 到 该 
百分比 至 少 为 10%， 高 峰 时 常 达到 50% 以 上 。 这 意味 着 磁盘 成 为 了 限制 
性 能 的 短 板 《〈 所 以 此 人 新 添 了 固态 磁盘 ) 。 
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图 23-3 ”查询 期 间 的 CPU 使 用 情况 


作为 对 比 ， 图 23-4 显 示 了 使 用 固态 磁盘 的 机 器 上 CPU 的 使 用 情况 。 图 中 
甚至 已 经 看 不 出 IO 延迟 的 痕迹 ， 上 下 两 条 明显 的 曲线 分 别 表 示 系 统 时 间 
(system time) 和 用 户 时 间 (user time) 。 因 此 ， 限 制 这 一 机 器 性 能 的 
短 板 就 是 CPU 的 运行 速度 。 图 中 曲线 超过 了 100%， 这 也 说 明 系 统 利 用 
了 多 个 处 理 嚣 核心。 将 其 与 图 23-3 进 行 对 比 可 发 现 ， 之 前 的 机 器 由 于 磁 
盘 IO 速 度 过 慢 ， 导 致 得 到 充分 利用 的 处 理 器 核心 甚至 还 不 足 一 个 。 
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图 23-4 查询 期 间 的 CPU 使 用 情况 





最 后 ， 在 有 关 锁 时 间 的 图 23-5 中 可 以 看 到 其 对 MongoDB 的 影响 。 在 机 械 
磁盘 上 ， 数 据 库 10% 到 25% 的 时 间 处 在 锁 状态 ， 有 时 峰值 甚至 会 达到 
100%。 
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图 23-5 ”查询 期 间 MongoDB 的 锁 比例 

与 图 23-6 中 使 用 固态 人 磁盘 机 器 上 的 锁 比例 进行 比较 。MongoDB 基 本 上 一 
直 保 持 非 锁定 状态 。《【〈 曲 线 开 始 部 分 的 凸 起 是 在 加 上 固态 磁盘 之 前 的 数 
据 读 取 操 作 造 成 的 。) 


锁 点 例 十 月 回 名 








图 23-6 ”使 用 固态 磁盘 机 器 上 的 锁 比 例 


可 以 看 到 ， 固 态 磁 盘 可 以 承担 比 机 械 磁 盘 多 得 多 的 工作 ， 但 不 幸 的 是 ， 
它们 无 法 被 大 量 部 署 。 如 果 能 够 使 用 它们 ， 那 就 用 吧 。 就 算 不 可 能 在 整 
个 集群 中 使 用 固态 磁盘 ， 也 应 考虑 尽量 多 得 部 署 ， 然 后 使 用 在 第 15 半 中 
提 到 的 强制 热点 数据 模型 进行 优化 。 


注意 ， 通 常 我 们 不 能 同 已 有 的 副本 集中 添加 固态 磁盘 (如 副本 集中 存在 
机 械 破 盘 的 话 ) 。 如 果 使 用 固态 磁盘 的 机 需 成 为 主 成员 (primary 
member) ， 并 接管 处 理 它 所 能 处 理 的 一 切 工 作 ， 则 其 他 成 员 受 速度 所 
限 ， 无 法 及 时 复制 数据 ， 从 而 被 钞 在 后 面 。 因 此 ， 如 果 要 引入 固态 磁盘 
的 话 ， 辣 集群 中 增加 一 个 新 的 分 片 不 失 为 一 种 更 好 的 方法 。 

注意 ， 固 态 磁 盘 对 于 处 理 普通 数据 而 言 表现 优异 ， 但 实际 上 机 械 磁 盘 完 
全 可 以 用 于 记录 日 志 〈jourmnal) 。 用 机 械 破 盘 来 记录 日 志 ， 而 用 固态 磁 
盘 记 录 数 据 ， 这 样 既 能 节省 固态 磁盘 的 空间 ， 也 不 会 影响 性 能 。 


23.1.2 ”推荐 的 RAID 配 置 














RAID (Redundant Array of Independent Disk， 独 立 磁 盘 元 余 阵 列 ， 旧 称 
Redundant Array of Inexpensive Disk， 廉 价 磁 盘 元 余 阵 列 ) 是 一 种 可 以 
让 我 们 把 多 块 磁 盘 当 作 单 独 一 块 磁盘 来 使 用 的 技术 。 可 使 用 它 来 提高 磁 
盘 的 可 靠 性 或 性 能 ， 或 二 者 兼 有 。 一 组 使 用 RAID 技 术 的 磁盘 被 称 作 
RAID 磁 盘 阵 列 。 


RAID 根 据 性 能 的 不 同 ， 存 在 着 多 种 配置 方式 ， 通 种 兼顾 了 速度 与 容错 
性 。 下 列 是 几 种 最 币 见 的 配置 方式 。 








e RAIDO 
使 用 磁盘 分 割 技术 (disk ”striping) 将 多 个 磁盘 并 列 起 来 以 提升 性 
能 。 每 块 磁盘 保存 一 部 分 数据 ， 与 MongoDB 中 的 分 片 类 似 。 由 于 
存在 多 个 底层 磁盘 ， 因 此 大 量 数 据 可 在 同一 时 间 写 入 磁盘 内 。 这 一 
方式 可 提高 写 入 效率 。 然 而 ， 如 果 其 中 一 块 磁盘 发 生 故 障 导 致 数据 
丢失 ， 则 这 些 数据 不 会 存在 备份 。 这 也 会 导致 读 取 速度 变 慢 (尤其 
是 在 Amazon 的 Elastic Block Store 服 务 上 ) ， 因 为 一 些 数据 卷 可 能 比 


为 一 些 要 慢 ， 


RAIDI1 

使 用 镜像 来 提高 可 靠 性 。 同 样 的 数据 副本 会 被 写 入 到 阵列 的 每 一 个 
成 员 当 中 。 这 一 方法 的 性 能 要 比 RAID0 低 ， 因 为 阵列 中 一 个 速度 慢 
的 成 员 会 拖 慢 整个 阵列 的 写 入 速度 。 然 而 ， 如 果 其 中 一 块 磁盘 发 生 
故障 ， 还 可 以 在 阵列 中 的 其 他 成 员 上 找到 数据 副本 。 


RAID5 
在 使 用 磁盘 分 割 技 术 的 基础 上 ， 额 外 存储 数据 的 校 验 信 息 ， 以 防 服 
务 器 故障 导致 数据 丢失 。 一 般 情 况 下 ， 在 一 块 磁 盘 发 生 故 障 时 
RAID5 可 以 自动 处 理 它 ， 用 户 并 不 会 感觉 到 故障 的 发 生 。 然 而 ， 这 
也 使 得 RAID5 成 为 这 些 RAID 配 置 方案 中 最 慢 的 一 种 ， 因 为 它 需 要 
在 写 入 数据 时 计算 校 验 信息 。 而 MongoDB 所 进行 的 恰恰 是 典型 的 
多 次 少量 的 数据 号 入 工 作 ， 因此 使 用 RAID5 所 带 来 的 代价 尤为 可 
意 。 

















RAID10 

RAID10 是 一 种 RAID0O 和 RAID1 的 组 合 : 数据 被 分 割 以 提升 速度 ， 
又 被 复制 镜像 以 提高 可 靠 性 。 

推荐 使 用 RAID10， 它 比 RAID0 更 安全 ， 也 能 解决 RAID1 的 性 能 问题 。 
有 人 觉得 在 副本 集 的 基础 上 再 使 用 RAID1 有 些 浪 费 ， 从 而 选择 RAID0。 
这 是 个 人 喜好 问题 : 你 原意 为 了 性 能 承担 多 大 的 风险 呢 ? 

不 要 使 用 RAID5， 它 非常 非常 慢 。 


23.1.3 CPU 





MongoDB 对 于 CPU 的 负载 很 轻 (注意 在 图 23-3 和 图 23-4 中 : 两 个 CPU 的 
处 理 能 力 即 可 满足 每 秒 10 000 次 查询 ) 。 如 需 在 内 存 和 CPU 间 选择 一 个 
进行 硬件 投资 ， 一 定 要 选择 内 存 。 理 论 上 来 讲 ， 在 进行 读 取 或 在 内 存 中 
进行 排序 时 ， 会 耗 尽 多 核 的 运算 资源 ， 但 在 实践 中 这 种 情况 很 少 发 生 。 

在 建立 索引 和 进行 MapReduce《〈 一 个 用 于 大 规模 数据 集 并 行 运算 的 软件 
架构 ) 运算 时 ， 对 CPU 的 负载 很 大 ， 但 直到 本 书写 作 之 时 ， 增 加 处 理 器 
核 数 仍 无 法 对 这 两 种 操作 起 到 优化 作用 。 


如 需 在 速度 和 核 数 间 做 出 选择 ， 应 选择 前 者 。 相 比 更 多 的 并 行 运算 ， 
MongoDB 能 更 好 地 利用 单 处 理 器 上 的 更 多 周期 进行 运算 。 


23.1.4 选择 操作 系统 


64 位 Linux 操 作 系 统 是 运行 MongoDB 的 最 好 选择 。 可 能 的 话 应 选择 它 作 
为 内 核 系 统 。CentOS 和 RedHat 企 业 厂 可 能 是 最 普遍 的 选择 ， 其 他 的 发 
行 版 也 应 能 够 运行 MongoDB (Ubuntu 和 Amazon Linux 也 很 常用 ) 。 应 
使 用 最 新 发 布 的 稳定 版 本 ， 因 为 老 旧 的 、 存 在 缺陷 的 软件 包 或 内 核 有 时 


会 产生 问题 。 
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64 位 Windows 系 统 也 能 很 好 地 运行 MongoDB。 


MongoDB 对 于 其 他 版 本 Unix 系 统 的 文 持 并 没有 那么 好 : 如 果 使 用 Solaris 
或 者 基于 BSD 的 系统 ， 那 么 应 该 小 心 ， 因 为 这 些 系统 发 布 的 
MongoDB， 都 存在 《至 少 曾 经 存在 ) 很 多 问题 。 


关于 路 平台 兼容 ， 有 一 点 需 特 别 注意 : MongoDB 在 所 有 系统 中 使 用 同 
样 的 线路 协议 (wire protocol) ， 对 于 数据 文件 中 的 内 容 也 使 用 同样 的 
格式 进行 存储 ， 所 以 我 们 可 以 基于 不 同系 统 的 组 合 来 部 普 MongoDB。 
例如 ， 可 在 Windows 系 统 上 运行 mongos 进 程 ， 而 在 Linux 上 运行 mongods 
来 作为 其 分 片 。 也 可 在 windows 和 Linux 间 复制 数据 文件 ， 而 不 必 考 虑 
跨 平 台 莱 容 的 问题 。 


如 服务 器 需 处 理 大 量 数据 ， 则 不 要 使 用 32 位 系统 ， 因 为 这 会 限制 我 们 最 
多 只 能 处 理 2 GB 的 数据 〈 这 是 由 于 MongoDB 使 用 内 存 上 映射 的 文件 ) 。 
副本 集 的 仲裁 器 和 mongos 进 程 可 以 运行 在 32 位 机 器 上。 不 要 在 32 位 机 器 
上 运行 其 他 类 型 的 MongoDB 服 务 。 


MongoDB 只 文 持 小 端 (little-endian， 即 存储 二 进 制 内 容 时 ， 数 字 的 低位 














组 置 于 最 前 面 ) 系统 结构 。 大 部 分 驱动 都 支持 小 端 和 大 端 (big- 
endian) 两 种 系统 结构 ， 因 此 客户 端 在 两 种 系统 中 均 可 运行 。 然 而 ， 服 
务 吉 只 能 运行 在 小 端 结构 的 机 器 上 。 


23.1.5 ”交换 空间 


应 分 配 一 小 块 交换 空间 ， 以 防 系 统 内 存 使 用 过 多 ， 从 而 导致 内 核 终止 
MongoDB 的 运行 。 然 而 ，MongoDB 通 常 并 不 会 使 用 任何 交换 空间 。 


MongoDB 所 使 用 的 大 部 分 内 存 都 是 “不 稳定 的 ?>: 只 要 系统 因 菏 些 原 因而 
请 求 内 存 空 间 ， 这 部 分 内 存 中 的 内 容 束 会 被 刷新 到 磁盘 中 ， 然 后 原 内 存 
则 被 丛 换 成 其 他 内 容 。 因 此 ， 数 据 库 数据 绝 不 应 该 被 写 入 交换 空间 ， 
为 它 首 移 会 被 刷新 回 磁盘 。 


然而 ，MongoDB 在 再 要 对 数据 进行 排序 ， 即 建立 索引 或 进行 排序 操作 
时 ， 会 使 用 交换 空间 。 在 进行 此 类 操作 时 ，MongoDB 会 尽量 不 去 使 用 
过 多 内 存 ， 但 如 果 同 时 进行 很 多 这 种 操作 ， 最 终 就 会 使 用 到 交换 空间 。 


如 果 应 用 程序 在 服务 器 上 用 到 了 交换 空间 ， 则 应 想 办 法 重新 设计 应 用 程 
序 ， 或 者 减少 那 台 服务 器 上 的 负载 。 


23.1.6 ”文件 系统 


在 Linux 系 统 上 ， 推 荐 使 用 ext4 或 XFS 文件 系统 作为 数据 卷 。 具 有 一 个 能 
够 在 备份 时 进行 文件 系统 快照 〈filesystem snapshot) 的 文件 系统 是 不 错 
的 ， 但 是 会 影响 到 性 能 。 


不 推荐 使 用 ext3 文 件 系 统 ， 因 为 它 在 对 数据 文件 进行 预 分 配 时 耗 时 过 
长 。MongoDB 会 定期 分 配 2GB 大 小 的 数据 文件 并 将 其 内 容 填 充 为 0。 在 
ext3 文 件 系 统 上 ， 这 一 操作 会 造成 几 分 钟 的 卡 顿 。 如 末 一 定 要 使 用 ext3 
文件 系统 ， 有 几 个 相关 的 优化 措施 可 供 选 择 。 不 过 如 果 可 以 的 话 ， 还 是 
应 尽量 使 用 其 他 文件 系统 。 


在 Windows 系 统 上 ， 使 用 NTFS 和 FAT 文 件 系统 都 是 可 以 的 。 








-多 的 存 


储 区 域 。 有 些 版 本 的 客户 问 会 隐瞒 数据 刷新 的 真实 情况 ， 随 机 重新 
挂 载 和 刷新 页 面 缓存 (page cache) ， 且 不 文 持 排 他 文件 锁定 
(exclusive file lock) 。 使 用 NEFS 文 件 系统 会 造成 日 志 〈journal) 内 
容 损坏 ， 因 此 应 尽量 避免 使 用 。 


23.2 ”虚拟 化 


运用 虚拟 化 (virtualization〉 技术 可 方便 地 使 用 廉价 的 人 硬件 来 部 署 系 
统 ， 并 且 能 够 迅速 做 出 扩展 。 然 而 ， 虚 拟 化 也 存在 缺点 ， 尤 其 是 无 法 预 
知 的 网 络 和 磁 各 IO 状况 。 本 节 将 探讨 有 关 虚 拟 化 的 具体 问题 。 


23.2.1 禁止 内 存 过 度 分 配 


内 存 过 度 分配 (memory overcommitting〉 的 设置 值 决 定 了 当 进 程 向 操作 
系统 请 求 过 多 内 存 时 应 采取 的 策略 。 基 于 这 一 设置 ， 内 核 可 能 会 为 进程 
分 配 内 存 ， 哪 怕 那 些 内 存 当 前 是 不 可 用 的 (期 望 的 结果 是 ， 当 进程 用 到 
这 段 内 存 时 它 已 变 为 可 用 的 ) 。 这 种 内 核 同 进程 许诺 不 存在 的 内 存 的 行 
为 ， 就 叫做 内 存 过 度 分 配 。 这 一 特性 使 得 MongoDB 无 法 很 好 地 运作 。 


vm.overcommit_memory 的 值 可 能 为 0 〈 让 内 核 来 猜测 过 度 分 配 的 大 小 ) ， 
可 能 为 1 (满足 所 有 内 存 分 配 请 求 )， 也 可 能 为 2 分配 的 虚拟 地 址 空间 
最 多 不 超过 交换 空间 与 一 小 部 分 过 度 分 配 的 和 ) 。 将 此 值 设 为 2 所 代表 
的 意义 最 为 复杂 ， 同 时 也 是 最 佳 选择 。 运 行 以 下 命令 将 此 值 设 为 2: 


$ echo 2 > /proc/sys/vm/overcommit_memory 























更 改 这 一 设置 后 无 需 重 局 MongoDB。 

23.2.2 ”神秘 的 内 存 

有 时 虚拟 层 无 法 正确 地 配备 内 存 。 因 此 ， 一 台 虚 拟 机 号 称 拥有 100 GB 可 
用 内 存 ， 但 可 能 只 能 使 用 其 中 的 60 ” GB。 相反， 我 们 曾经 发 现 应 该 只 能 
使 用 20 GB 内 存 的 用 户 ， 却 可 以 将 100 GB 的 数据 集 全 部 存 入 内 存 ! 


没 这 么 斑 运 也 无 所 请 。 如 果 预 恋 大 小 设置 合理 ， 而 虚拟 机 就 是 无 法 使 用 
全 部 内 存 ， 这 时 切换 虚拟 机 即 可 。 


23.2.3 ”处 理 网 络 磁盘 的 IO 问题 





磁盘 速度 的 越 用 缓慢 是 使 用 虚拟 化 技术 的 最 大 问题 之 一 。 我 们 通常 要 和 
其 他 使 用 者 共 胖 磁盘 ， 由 于 每 个 人 都 在 争夺 磁盘 IO， 因 此 这 加 剧 了 磁盘 
的 性 能 负担 。 也 正 因为 此 ， 虚 拟 磁 盘 的 性 能 无 法 预知 : 当 其 他 使 用 者 并 
不 频繁 使 用 磁盘 时 ， 磁 盘 可 以 工作 地 很 好 ， 而 一 旦 其 他 人 开始 压榨 磁盘 
时 ， 其 性 能 就 会 迅速 下 降 。 


另 一 个 问题 是 ， 存 储 设备 时 与 MongoDB 运 行 的 机 器 间 常 常 并 不 存在 物 
理 上 的 连接 ， 所 以 即使 磁盘 仅 供 自己 使 用 ， 依 然 会 比 本 地 磁盘 速度 慢 。 
这 也 可 能 (虽然 可 能 性 不 大 ) 导致 MongoDB 服 务 器 与 数据 间 失 去 了 网 
络 连接 。 


Amazon 拥 有 可 能 是 最 常用 的 网 格 存储 服务 ， 称 为 EBS (Elastic Block 
Store， 弹 性 块 存储 ) 。EBS 中 的 卷 可 连接 到 EC2 (Elastic Compute 
Cloud， 弹 性 云 计算 ) 实例 ， 并 立即 为 机 器 提供 近乎 任意 数量 的 磁盘 空 

间 。 从 积极 的 一 面 来 看 ， 这 使 得 备份 变 得 非常 简单 〈 在 备份 节点 上 制作 
快照 ， 挂 载 EBS 驱 动 到 男 一 个 实例 上 ， 启 动 mongod) 。 但 另 一 方面 ， 性 
能 的 起 伏 会 非常 明显 。 


如 希望 提高 性 能 的 可 预测 性 ， 有 以 下 几 个 选项 。 要 保证 系统 性 能 和 期 望 
中 的 一 样 ， 最 直接 的 做 法 是 不 要 将 MongoDB 托 管 在 云端 。 将 其 托管 在 
自己 的 服务 器 上 可 以 保证 性 能 不 会 被 其 他 使 用 者 拖 慢 。 不 过 ， 许 多 人 不 
会 选择 这 种 做 法 。 于 是 ， 仅 次 于 前 一 种 选项 的 就 是 选择 能 够 保证 一 定数 
量 IOPS (IO ”Operations Per Second， 每 秒 IO 操 作 ) 的 实例 。 可 访问 
http://docs.mongodb.org， 查 看 最 新 的 推荐 托管 服务 。 


如 果 这 些 选 项 都 无 法 实现 ， 而 一 个 高 负载 的 EBS 郑 所 提供 的 磁盘 IO 又 无 
法 满足 需求 ， 那 么 可 以 使 些 手段 。 


基本 上 ， 我 们 能 做 的 就 是 监视 MongoDB 所 使 用 的 卷 。 一 旦 某 个 卷 的 速 
立即 终止 这 一 实例 的 运行 ， 接 着 局 动 一 个 使 用 为 一 数据 和 的 新 
实例 。 


可 对 以 下 数据 进行 监视 。 

















。 IO 利用 率 的 峰值 (MMS 中 的 “IO 延迟 ”) ， 原 因 显 而 易 见 。 
。 页 缺失 (page faults) 发 生 频 率 的 峰值 。 注 意 ， 应 用 程序 本 身 的 行 
为 变化 也 会 造成 工作 集 的 变化 : 在 部 署 新 版 本 的 应 用 程序 前 ， 应 先 


禁用 这 一 不 断 结 束 并 切换 实例 的 脚本 。 

。 TCP 丢 包 数 的 增长 情况 (在 Amazon 的 服务 上 这 一 点 尤其 严重 : 当 
性 能 开始 下 降 时 ， 会 频繁 发 生 TCP 于 包 的 情况 )。 

。 MongoDB 读 写 队 列 的 峰值 《该 数据 可 在 MMS 或 mongo stat 的 qr/qw 
列 中 找到 ) 。 


如 宁 负 载 及 生 周 期 性 变化 ， 应 确保 脚本 考虑 了 计划 任务 的 情况 ， 以 免 其 
在 工作 格外 繁忙 的 星期 一 早上 ， 由 于 执行 计划 任务 造成 的 影响 而 终止 所 
有 实例 的 运行 。 


在 使 用 这 些 手 段 之 前 ， 应 保证 对 数据 留 有 备份 ， 或 存在 可 与 其 进行 同步 
的 数据 集 。 如 果 让 每 个 实例 都 保存 上 TB 的 数据 ， 我 们 可 能 会 希望 寻找 
De 
2 0 原 3》 > 半 慢 。 


23.2.4 ”使 用 非 网 络 磁 盘 


本 节 中 使 用 了 一 些 Amazon 服 务 中 特有 的 词汇 。 然 而 ， 它 也 可 能 适用 于 
其 他 提供 商 。 


临时 驱动 器 《ephemeral drive) 是 真正 和 虚拟 机 (VM) 所 在 的 机 器 间 存 
在 物理 连接 的 磁盘 ， 所 以 并 不 存在 很 多 网 络 存 储 中 出 现 的 问题 。 本 地 磁 
盘 依 然 可 能 由 于 同一 个 盒子 (box) 中 其 他 用 户 的 使 用 而 超过 负载 ， 但 
通过 使 用 更 大 的 盒子 可 基本 确保 不 会 与 特别 多 的 用 户 共享 磁盘 。 即 使 是 
一 个 稍 小 的 实例 ， 只 要 其 他 使 用 者 没有 造成 大 量 的 IOPS， 临 时 驱动 器 就 
能 经 党 提供 比 网 络 驱 动 器 更 好 的 性 能 。 


它 的 缺点 从 名 字 上 就 可 以 看 出 来 : 这 些 磁盘 是 临时 的 。 如 果 EC2 实 例 停 
0 
` 见 了 。 


因此 ， 应 小 心 使 用 临时 驱动 右 。 应 确保 不 要 将 任何 重要 的 ， 或 者 没有 备 
份 的 数据 存放 到 这 些 磁盘 里 。 尤 其 不 要 把 日 记 信 息 存 放 在 这 些 临时 磁盘 
里 ， 或 是 网 络 另 一 端的 数据 库 里 。 通 常 来 讲 ， 应 将 临时 驱动 器 当 作 一 个 
速度 稍 慢 的 缓存 来 使 用 ， 而 非 一 块 速度 快 的 磁盘 。 


23.3 ”系统 配置 

















以 下 几 个 系统 设置 可 使 MongoDB 的 运行 更 加 稳定 ， 且 主要 与 磁盘 和 内 
存 的 访问 有 关 。 本 节 将 具体 学 习 这 些 选项 及 其 调整 方法 。 


23.3.1 禁用 NUMA 


当 机 右 中 只 有 一 个 CPU 时 ， 所 有 内 存 的 存 取 时 间 (access time) 基本 相 
同 。 当 机 器 中 开始 有 更 多 的 人 处理 右 时 ， 工 程 师 们 发 现 ， 与 其 将 所 有 内 存 
与 CPU 的 距离 保持 相同 (如 图 23-7 所 示 〉 ， 不 如 为 每 个 CPU 都 设置 一 些 
距 其 更 近 、 访 问 速 度 更 快 的 内 存 ， 这 样 做 的 效率 会 更 高 。 

















图 23-7 ”一 致 内 存 结构 : 每 个 CPU 访问 所 有 内 存 的 代价 相同 


这 种 每 个 CPU 都 具有 上 自己 “本 地 ”内 存 的 结构 ， 叫 做 NUMA (Non-uniform 
Memory Architecture， 非 一 致 内 存 结构 ) ， 如 图 23-8 所 示 。 








图 23-8” 非 一 致 内 存 结构 : 每 个 CPU 连接 一 部 分 特定 内 存 ， 访 问 这 些 


内 存 时 ， 该 CPU 速度 更 快 。 该 CPU 依然 可 访问 其 他 CPU 连接 着 的 内 
存 ， 不 过 代价 会 更 高 


对 于 很 多 应 用 程序 ，NUMA 都 能 够 很 好 地 运作 :不同 的 处 理 器 运行 不 同 
的 程序 ， 因 此 通常 需要 不 同 的 数据 。 然 而 ， 这 一 结构 面 对 数 据 库 ， 尤 其 
是 MongoDB 时 ， 则 表现 非常 糟糕 ， 这 是 因为 数据 库 访 问 内 存 的 模式 与 

其 他 应 用 程序 不 同 。MongoDB 需 要 使 用 大 量 内 存 ， 同 时 需要 CPU 能 人 够 

访问 其 他 CPU 的 “本 地 内 存 ”。 然 而 ， 很 多 系统 上 默认 的 NUMA 设 定 很 难 
满足 这 一 需求 。 


CPU 倾向 于 优先 使 用 自身 的 “本 地 内 存 ”， 而 进程 则 倾 回 于 优先 使 用 同一 

CPU。 这 意味 着 内 存 通常 不 会 被 平均 地 占用 ， 结 果 就 是 一 个 处 理 器 使 用 

而 其 他 处 理 器 只 使 用 了 其 一 小 部 分 内 存 ， 如 
23-9 有 不 。 

















: 
: 


_ 


CPU1 


图 23-9 一 个 NUMA 系 统 的 内 存 占 用 情况 


在 图 23-9 的 情况 下 ， 假 设 CPU1 需 要 一 些 内 存 中 没有 的 数据 。 此 时 必须 
使 用 其 “本 地 内 存 ” 来 存放 这 些 还 没有 被 读 进 内 存 的 数据 ， 但 其 “本 地 内 
存 ” 已 经 满 了 。 于 是 “本 地 内 存 ” 中 的 一 些 数据 束 会 被 移 除 出 去 以 腾 出 空 
间 ， 哪 怕 CPU2 的 “本 地 内 存 ” 中 还 有 足够 的 空间 。 这 一 过 程 使 得 
MongoDB 的 运行 速度 要 比 期 望 中 慢 得 多 ， 因 为 只 有 一 小 部 分 内 存 得 到 
了 有 效 地 利用 。MongoDB 倾 问 于 访问 更 多 的 数据 ， 哪 介 效 率 稍 低 ， 而 
非 高 效 地 访问 一 小 部 分 数据 。 


茶 用 NUMA 有 是 一 个 能 够 提升 性 能 的 魔法 按钮 ， 一 定 要 按 下 它 。 就 像 使 用 
固态 磁盘 一 样 ， 禁 用 NUMA 可 提升 所 有 事物 的 性 能 。 











如 果 可 能 的 话 ， 应 通过 BIOS 来 禁用 NUMA。 人 例如， 如果 在 使 用 grub， 可 
在 grub .cfg 中 添加 numa=off 选 项 : 


kernel /boot/vmlinuz-2.6.38-8-generic root=/dev/sda ro quiet numa=of 


如 果 系 统 无 法 在 BIOS 中 禁用 NUMA， 则 可 在 启动 mongod 时 使 用 以 下 选 
项 : 


$ numact1 --interleave=all mongod [options] 


将 这 一 命令 添加 到 所 有 使 用 的 初始 化 脚本 中 。 


此 外 ， 禁 用 zone_reclaim_mode 选 项 。 可 把 该 选项 认定 为 “超级 NUMA>”。 
该 选项 被 眉 用 后 ，CPU 访 问 一 页 内 存 时 ， 该 页 内 存 束 会 被 移动 到 此 CPU 
的 “本 地 内 存 ” 中 。 于 是 ， 如 果 一 个 CPU 上 的 threadA 和 另 一 CPU 上 的 
threadB 同 时 访问 一 页 内 存 ， 则 每 次 访问 时 ， 该 页 内 存 都 会 被 从 一 个 
CPU 的 “本 地 和 内存" 复制 到 为 一 CPU 的 “本 地 内 存 “ 中 。 这 会 非常 。 非 党 得 


慢 。 





\ 一 /一 
要 禁用 zone_reclaim_mode， 可 运行 


$ echo © > /proc/sys/vm/zone_reclaim mode 


无 需 重启 mongod，zone_reclaim_mode 选 项 即 可 生效 。 


启用 NUMA 后 ， 主 机 在 MMS 上 会 被 显示 成 黄色 ， 如 图 23-10 所 示 。 可 通 
过 “Last Ping” 选 项 卡 ， 查 看 使 其 变 成 黄色 的 具体 警告 信息 。 图 23-11 显 示 
的 警告 信息 可 说 明 NUMA 是 否 启用 。 








天 Hosts i EB Agents 国 Agent Log x 





Name 2 Type 
ip-10-62-73-192;27017 primary 








图 23-10 MMS 中 一 台 主 机 存在 启动 警告 信息 








图 23-11 有 关 NUMA 的 启动 警告 信息 


如 果 禁 用 NUMA， 那 么 MMS 上 的 主机 会 重新 显示 为 赣 色 。 【主机 显示 
为 黄色 也 可 能 是 由 于 其 他 原因 。 应 同时 查看 其 他 启动 警告 信息 。) 


23.3.2 ”更 智能 地 预 读 取 数据 


预 读 (readahead) 是 一 种 优化 手段 ， 即 操作 系统 从 磁盘 中 读 取 比 实际 请 
求 更 多 的 数据 。 这 一 优化 基于 的 原理 是 : 计算 机 所 处 理 的 大 部 分 工作 都 
是 连续 的 ， 即 如 果 载 入 了 一 个 视频 文件 的 前 20MB 内 容 ， 则 接 下 来 很 可 
能 需要 用 到 紧 随 其 后 的 奉 干 MB 内 容 。 于 是 ， 系 统 会 从 磁盘 中 读 取 比 实 
际 请 求 更 多 的 内 容 ， 并 将 其 存放 到 内 存 中 ， 以 便 随 后 的 调用 。 


然而 ，MongoDB 并 非 是 典型 的 工作 负载 ， 设 置 预 读 也 是 MongoDB 系 统 
中 的 常见 问题 。MongoDB 倾 向 于 从 磁盘 中 随机 读 取 很 多 小 块 的 数据 ， 
所 以 默认 的 系统 设置 并 不 能 很 好 地 运作 。 如 果 预 读 内 容 过 多 ， 内 存 中 会 
逐渐 充满 MongoDB 没 有 请 求 的 内 容 ， 迫 使 MongoDB 更 多 地 访问 磁盘 。 


例如 ， 如 果 硕 望 从 磁盘 中 读 取 一 个 忆 区 〈512 字 节 ) 的 内 容 ， 则 磁盘 控 
制 如 实际 上 可 能 会 读 取 256 个 届 区 ， 因 为 它 假设 我 们 接 下 来 总 会 用 到 这 
些 内 容 。 然 而 ， 如 果 完 全 随机 地 访问 磁盘 数据 ， 则 这 些 预 读 的 而 区 都 会 
被 浪费 掉 。 如 果 内 存 中 包含 了 工作 集 ， 则 其 中 的 255 个 属 区 会 被 从 内 存 
中 移 除 ， 从 而 存放 这 些 不 会 用 到 的 内 容 。 事 实 上 256 个 书 区 是 很 小 的 预 
读数 量 ， 有 些 系统 会 默认 预 读 上 干 届 区 的 内 容 。 


验 好 ， 有 一 种 很 简单 的 方法 ， 可 供 人 查看 预 读 设置 是 否 已 市 来 研 烦 : 检查 
MongoDB 驻 留 集 (resident set) 的 大 小 ， 并 与 系统 的 总 内 存 容量 进行 比 
较 。 





























假设 内 存 容量 小 于 数据 大 小 ，MongoDB 的 驻 留 集 大 小 应 稍 小 于 总 内 存 
大 小 例如， 如果 有 50GB 的 内 存 ，MongoDB 应 占用 了 至 少 46 GB) 。 
如 驻 留 集 过 小 ， 则 说 明 预 读 的 内 容 可 能 太 多 了 。 








比较 驻 留 集 和 总 内 存 大 小 这 一 方法 所 基于 的 原理 是 : 被 预 读 的 数据 在 内 
存 中 ， 而 MongoDB 没 有 请 求 这 些 数据 ， 因 此 不 会 被 计算 在 MongoDB 的 
第 驻 内 存 大 小 中 。 


使 用 blockdev 命 令 ， 可 查看 当前 的 预 读 设 定 : 


$ sudo blockdev --report 


RO RA SSZ BSZ StartSec Size Device 

rw 256 512 4096 0 80026361856 /dev/sda 

rw 256 512 4096 2048 80025223168 /dev/sdal 
rw 256 512 4096 © 2000398934016 /dev/sdb 

rw 256 512 1024 2048 98566144 /dev/sdb1 
rw 256 512 4096 194560 7999586304 /dev/sdb2 


rw 256 512 4096 15818752 19999490048 /dev/sdb3 
rw 256 512 4096 54880256 1972300152832 /dev/sdb4 


这 里 显示 了 每 个 块 设备 的 配置 。RA 列 表示 预 读 大 小 ， 其 单位 是 大 小 为 
512 字 节 的 扇 区 数量 。 因 此 ， 该 系统 中 每 个 设备 的 预 读 大 小 都 设置 为 
128KB 〈512 字 节 / 届 区 x256 个 而 区 ) 。 


可 使 用 以 下 命令 ， 并 通过 - -setra 选 项 来 更 改 这 一 设 定 值 : 


$ sudo blockdev --setra 16 /dev/sdb3 





那么 ， 预 读 大 小 设 为 多 少 为 好 呢 ? 推荐 数值 是 16 到 256 之 间 。 预 读 大 小 

也 不 应 设 得 过 小 ， 盏 则 读 取 一 个 单独 的 文档 则 需 多 次 访问 磁盘 。 如 文档 

较 大 《〈 大 于 1MB) ， 则 应 考虑 预 读 更 多 的 内 容 。 如 文档 较 小 ， 预 读 的 数 

值 则 应 小 一 些 ， 例 如 32。 即 使 文档 非 澡 小 ， 也 不 要 将 预 读 大 小 的 值 设 为 

这 会 导致 读 取 索引 信息 时 效率 低下 《索引 桶 〈index bucket) 的 
小 为 8KB ) 。 


使 用 RAID 时 ，RAID 控 制 器 和 组 成 RAID 的 每 个 分 卷 上 都 应 对 预 读 进 行 
设置 。 


需 重 局 MongoDB 才 能 使 预 读 设 定 生效 ， 这 一 点 看 起 来 有 些 奇 怪 。 更 改 
磁盘 属性 设置 难 着 不 应 该 立即 对 所 有 正在 运行 的 程序 生效 吗 ? 但 可 异 ， 
进程 会 在 月 动 时 复制 一 份 预 读 大 小 的 设置 值 ， 并 一 直 按照 该 值 运作 ， 直 
到 进程 停止 运行 


23.3.3 ”禁用 大 内 存 页 面 














局 用 大 内 存 页 面 (hugepage) 导致 的 问题 和 预 读 过 多 内 容 导 致 的 问题 类 
似 。 不 要 局 用 这 一 特性 ， 除 非 : 


。 所 有 数据 都 存放 在 内 存 中 ; 
。 不 考虑 数据 大 小 不 断 增 长 最 终 超过 内 存 容量 的 情况 。 


人 
做 盘 IO。 


系统 以 页 面 为 单位 在 磁盘 和 内 存 则 转移 数据 。 页 面 大 小 通常 为 奉 干 
KB (X86 架构 中 默认 为 4096 字 节 ) 。 如 果 一 台 机 器 有 很 多 GB 的 内 存 ， 
那么 页 面 大 小 较 小 时 ， 管 理 这 些 页 面 的 开销 束 会 很 大 ， 速 度 束 会 更 慢 。 
而 大 页 面 使 得 页 面 大 小 设 定 值 最 大 可 为 256 MB 在 ia64 架 构 上 ) 。 然 而 
使 用 大 页 面 意 味 着 要 将 磁盘 上 一 个 面 区 中 几 MB 的 数据 存放 在 内 存 中 。 
如 果 数 据 不 能 全 部 存 进 内 存 ， 那 么 从 磁盘 中 载 入 大 块 数据 ， 只 会 更 快 地 
填 满 内 存 ， 而 这 些 内 容 随后 又 会 被 移 除 出 内 存 。 此 外 ， 将 对 数据 的 修改 
下 
几 KB。 


注意 ，Windows 系 统 将 此 特性 称 为 Large Pages 而 非 hugepages。 一 些 版 本 
的 Windows 上 默认 启 用 该 特性 ， 而 另 一 些 版 本 则 不 会 这 样 做 ， 因 此 应 检查 
确定 该 特性 是 否 已 被 禁用 。 


大 页 面 实际 上 是 为 了 优化 数据 库 系 统 的 性 能 而 开发 的 ， 所 以 有 经 验 的 数 
气 库 系统 管理 员 ， 可 能 会 对 本 节 内 容 感到 惊讶 。 然 而 ，MongoDB 对 磁 
盘 所 进行 的 顺序 访问 比 一 般 的 关系 型 数据 库 要 少 得 多 。 


23.3.4 选择 一 种 破 盘 调度 算法 


磁盘 控制 器 从 操作 系统 接收 到 请 求 后 ， 会 使 用 一 种 调度 算法 来 决定 处 理 
这 些 请 求 的 顺序 。 有 时 改变 这 一 算法 可 提高 磁盘 性 能 。 但 对 其 他 硬件 和 
工作 负载 而 言 ， 可 能 没什么 效果 。 最 好 的 决定 方法 是 进行 实地 测试 。 
Deadline (截止 时 间 〉 调度 算法 和 CFQ (completely fair queueing， 完 全 
公平 队列 ) 调度 算法 都 是 不 错 的 选择 。 


有 时 noop 〈“no-op” 的 缩写 ， 这 是 最 简单 的 调度 算法 ) 调度 算法 是 最 好 
的 选择 。 比 如 说 处 于 虚拟 化 环境 中 使 用 noop 调 度 算 法 ， 该 调度 算法 可 基 























本 上 以 最 快 的 速度 把 操作 传递 给 下 层 的 磁盘 控制 器 ， 然 后 让 真正 的 磁盘 
控制 器 来 处 理 所 需 的 重新 排序 问题 。 


类 似 地 ， 在 固态 磁盘 上 ，noop 调 度 算法 通常 是 最 好 的 选择 。 固 态 磁 盘 并 
不 存在 机 械 磁 盘 中 的 磁头 位 置 问题 。 


最 后 ， 如 使 用 RAID 控 制 旧 进行 缓存 ， 则 应 使 用 noop 调 度 算 法 。 绥 存 的 
表现 与 固态 磁盘 类似 ， 可 高 效 地 将 写 入 操作 分 配 到 不 同 的 磁盘 上 去 。 


可 在 启动 配置 中 使 用 --elevator 选 项 来 更 改 调度 算法 。 









避 , 该 选项 之 所 以 被 称 为 alevator (电梯 ) ， 是 因为 调度 算 
法 的 功能 束 像 一 部 电梯 ， 从 不 同 的 楼 层 〈( 进 程 /时 间 〉 接收 乘客 
(机 盘 IO 请 求 ) ， 再 以 一 种 可 能 的 最 佳 方案 ， 将 之 送 至 目的 地 。 


证 十 所 有 的 调度 算法 都 能 很 好 地 运作 ， 可 能 感觉 不 到 太 大 的 区 
别 。 





23.3.5 ”不 要 记录 访问 时 间 

系统 默认 记录 文件 最 后 被 访问 的 时 间 。 由 于 MongoDB 访 问 数 据 文件 十 
分 频繁 ， 如 果 禁 止 记录 这 一 时 间 ， 则 会 得 到 性 能 上 的 提升 。 在 Linux 系 
统 中 ， 可 在 /etc/fstab 里 将 atime 更 改 为 noatime， 以 禁止 记录 访问 时 间 。 


/dev/sdar /data ext4 rw,noatime 1 2 





要 使 该 设置 更 改 生效 ， 需 先 重新 挂 载 设备 。 


atime 在 旧 的 内 核 中 《比如 ext3) 问题 更 大 些 ， 因 为 新 的 内 核 中 使 
用 relatime 作 为 默认 值 ， 使 得 更 新 不 会 那么 频繁 。 此 外 应 注意 ， 将 此 值 
设 为 noatime 可 影响 其 他 程序 使 用 分 区 ， 例 如 mutt 或 备份 工具 。 


类 似 地 ， 在 Windows 系 统 下 应 设置 disablelastaccess 选 项 来 实现 相同 功 
能 。 运 行 以 下 命令 完成 最 后 访问 时 间 记 录 的 禁止 : 





C:\> fsutil behavior set disablelastaccess 1 








需 重 启 使 设置 更 改 生效 。 该 设置 可 能 影响 远程 存储 (Remote Storage) 
Dt 所 以 本 来 也 无 需 使 
用 此 服务 。 


23.3.6 ”修改 限制 


MongoDB 可 能 会 受到 两 个 限制 的 影响 : 


。 进程 可 建立 线程 的 数量 ; 
。 进程 能 够 打开 文件 摘 述 符 〈file descriptor) 的 数量 。 


二 者 通 第 应 被 设置 为 无 限制 。 


客户 端 与 MongoDB 服 务 器 建立 连接 时 ， 服 务 器 就 会 建立 一 个 线程 来 处 

理 这 个 连接 上 发 生 的 所 有 活动 。 因 此 ， 如 果 与 数据 库 建 立 了 3000 个 连 

接 ， 数 据 库 就 会 运行 3000 个 线程 (再 加 上 几 个 用 于 处 理 与 客户 端 无 关 任 
务 的 线程 》》。 客 户 端 可 与 MongoDB 建 立 十 几 个 甚至 几 千 个 连接 ， 具 体 

数量 取决 于 应 用 服务 器 的 配置 。 


如 果 客 户 端 可 动态 地 创建 更 多 的 子 进 程 以 应 对 增加 的 流量 (大 多 应 用 服 
务 器 都 会 这 么 做 ) ， 应 确保 这 些 子 进程 数量 保持 在 MongoDB 的 限制 以 

内 。 例 如 ， 如 有 果 有 20 个 应 用 服务 上 器， 其 中 每 一 个 都 被 允许 创建 100 个 子 

进程 ， 而 每 个 子 进程 又 可 创建 10 个 线程 连接 到 MongoDB， 那 么 最 多 就 

可 能 会 有 20x100x10=20 ”000 个 连接 。MongoDB 面 对 这 成 干 上 万 的 线程 
> Wa 另外 如 果 进 程 中 的 可 用 线程 数 被 耗 尽 ， 则 应 拒绝 新 的 
壕 护 。 


另 一 个 需要 修改 的 限制 是 ，MongoDB 能 够 打开 的 文件 描述 符 数 量 。 
个 连 入 和 连 出 的 连接 都 要 使 用 一 个 文件 描述 符 ， 如 果 客 户 端 连 接 的 数量 
真有 如 上 一 段 描述 的 那样 ， 则 会 打开 20 000 个 文件 描述 符 〈 恰 好 这 也 是 
MongoDB 所 人 允许 的 最 大 数量 ) 。 

特别 是 mongos， 它 会 与 很 多 分 所 建立 连接 。 当 客户 端 连 接 到 mongos 并 
发 起 请 求 时 ，mongos 问 所 有 上 所 需 的 分 片 建立 连接 ， 以 完成 请 求 。 于 是 ， 
如 果 集 群 中 有 100 个 分 片 ， 而 客户 端 连 接 到 mongos 并 尝试 查询 所 有 数 














据 ，mongos 就 必须 辐 每 个 分 片 建立 一 个 连接 ， 共 计 100 个 连接 。 这 会 促 
使 连接 数 的 快速 增长 ， 可 依照 之 前 的 例子 想象 一 下 。 假 设 一 个 配置 不 当 
的 应 用 服务 器 向 mongos 进 程 建立 了 100 个 连接 。 也 就 是 说 对 所 有 分 片 建 
立 的 连接 数 是 100 个 连 入 连接 x100 个 分 片 =10 000 个 ! (此 处 假设 每 个 连 
接 上 的 查询 都 没有 特定 目标 ， 这 种 设计 很 差劲 ， 所 以 这 个 例子 有 些 极 
端 ) 。 


因此 可 做 坚 调整 很 多 人 特意 使 用 maxconns 选 项 配置 mongos 进 程 ， 使 其 
只 允许 特定 数量 的 连 入 连接 。 这 种 方法 可 确保 客户 问 的 正常 工作 。 


文件 描述 符 数量 的 限制 也 应 该 得 到 增加 ， 因 为 其 默认 值 ( 通 常 是 1024) 
过 低 。 将 文件 描述 符 数 目的 最 大 值 设 为 无 限制 ， 如 果 觉 得 不 保险 的 话 ， 

可 将 其 设 为 20 000。 每 个 系统 更 改 这 些 限 制 的 方法 有 所 不 同 ， 但 通 单 来 
讲 ， 应 确保 对 软 限制 和 便 限 制 部 进行 了 修改 。 便 限制 是 内 核 级 的 ， 只 有 
管理 员 可 进行 更 改 ， 而 软 限制 则 是 用 户 级 的 。 


如 果 连 接 数 限制 为 1024，MMS 会 在 主机 列表 中 将 主机 名 称 显 示 为 黄色 
以 示 和 警告 (如 上 述 NUMA 的 例子 一 样 ) 。 如 果 限 制 值 过 低 ，“Last 
Ping> 选 项 卡 中 会 出 现 类 似 图 23-12 中 所 示 的 信息 。 























图 23-12 ”MMS 中 有 关 限 制 值 过 低 的 警告 信息 

即使 不 使 用 分 片 ， 应 用 程序 建立 的 连接 数 也 很 少 ， 也 应 至 少将 软 硬 限 制 
均 增 至 4096。 这 样 ，MongoDB 就 不 再 会 为 此 发 出 警告 ， 也 给 了 我 们 一 
些 喘息 空间 ， 有 备 无 患 。 

23.4 ”网 络 配 置 


本 节 我 们 将 学 习 哪些 服务 器 间 应 建 并 连接。 通常 情况 下 ， 出 于 网 络 安全 
(和 灵敏度 ) 考虑 ， 我 们 会 布 望 限 制 MongoDB 服 务 器 的 网 络 连接 。 注 
意 ， 多 服务 器 MongoDB 的 部 车 应 能 够 处 理 网 络 被 隔断 的 情况 ， 但 并 不 
推荐 将 其 作为 一 般 情 况 下 的 部 署 方式 。 


在 独立 服务 器 上 ， 客 户 端 须 能 够 与 mongod 建 并 连接 。 








副本 集成 员 必须 能 够 连接 到 其 他 各 成 员 。 客 户 端 必须 能 够 连接 到 所 有 可 
见 的 非 仲裁 器 成 员 。 根 据 网 络 配置 的 不 同 ， 成 员 可 能 会 答 试 与 自身 建立 
连接 ， 所 以 应 允许 mongods 建 立 到 自身 的 连接 。 


分 片 要 稍微 复杂 一 些 。 它 由 以 下 四 种 组 件 组 成 : 














e mongos 服 务 器 ; 
。 分 卢 ; 

。 配置 服务 器 ; 

。 客户 新。 


连接 要 求 可 概括 为 以 下 三 扩 : 


。 客户 端 必须 能 够 连接 到 一 个 mongos 服 务 器 ; 
。 mongos 服 务 器 必须 能 够 连接 到 众 分 片 和 配置 服务 器 ; 
。 分 片 必 须 能 够 连接 到 其 他 分 片 和 配置 服务 器 。 

表 23-1 中 显示 了 完整 的 连接 需求 。 

表 23-1 分 片 连接 


连接 从 服务 器 发 出 
与 服务 器 建立 mongos 分 片 ”配置 服务 器 客户 端 
需 














mongos 不 需要 不 需要 需要 
分 所 需要 需要 需要 不 推荐 
配置 服务 器 需要 需要 不 需要 不 推荐 
客户 端 不 需要 不 需要 需要 与 MongoDB 无 关 


表格 中 有 三 种 可 能 的 值 。 





。“ 需 要 ”表示 二 者 间 应 建 并 连接， 以 保证 分 片 正 常 运 行 。 大 由 于 网 络 
问题 导致 连接 中 断 的 话 ，MongoDB 会 尝试 进行 平稳 退化 ， 以 尽 可 
能 地 解决 问题 ， 但 不 应 故意 做 如 此 配置 。 

。“ 不 需要 ”表示 二 者 个 会 在 指定 方向 进行 通信 ， 也 束 无 十 建立 连接 。 


。“ 不 推荐 "表示 二 者 间 不 会 进行 通信 ， 但 用 户 的 错误 操作 则 会 促使 相 
互通 信 的 完成 。 例 如 ， 推 荐 做 法 是 限制 客户 逆 只 与 mongos 建 并 连 

















接 ， 而 不 与 分 片 建立 连接 ， 这 样 客户 端 就 不 会 在 无 意 中 直 接 癌 分 上 
请 求 内 容 。 类 似 地 ， 客 户 端 应 无 法 直接 访问 配置 服务 器 ， 以 防 意外 
更 改 配置 数据 。 
注意 ，mongos 进 程 和 分 片 会 主动 与 配置 服务 器 进行 通信 ， 但 配置 服务 占 
不 会 与 任何 其 他 节点 ， 甚 或 是 男 一 个 配置 服务 器 建立 连接 。 


分 片 在 进行 迁移 时 必须 进行 通信 ， 因 为 可 直接 连接 到 其 他 分 片 以 传输 数 
据 。 











如 前 所 述 ， 组 成 分 片 的 副本 集成 员 应 能 够 与 其 目 身 建立 连接 。 

23.5 “系统 管理 

本 节 我 们 将 学 习 一 些 在 部 署 服 务 器 前 应 注意 的 篆 见 问题 。 

23.5.1 ”时 钟 同步 

一 般 来 讲 ， 各 系统 间 的 时 钟 误差 不 超过 一 秒 是 最 为 安全 的 。 副 本 集 应 能 
够 处 理 几 乎 所 有 的 时 钟 偏 移 〈clock skew) 。 分 片 则 能 够 处 理 一 部 分 时 
钟 偏 移 (如 偏 移 超过 几 分 钟 ， 日 志 中 会 出 现 警 告 信息 ) ， 但 最 好 将 偏 移 
降 至 最 小 。 使 时 钟 保持 同步 ， 也 使 得 查看 日 志 内 容 变 得 更 加 方便 。 


为 保持 时 钟 同步 ， 在 Windows 系 统 中 可 使 用 w32tm 工 具 ， 而 在 Linux 系 统 
中 则 可 使 用 ntp 后 台 进 程 。 


23.5.2 OOM Killer 











在 极 偶然 的 情况 下 ，MongoDB 会 因 分 配 过 多 内 存 而 被 OOM Killer (Out 
of Memory killer， 内 存 溢出 杀手 ) 上 上。 尤其 是 在 建立 索引 时 发 生 ， 这 
也 是 MongoDB 的 常 驻 内 存 会 给 系统 造成 压力 的 少 有 情况 之 一 。 


如 果 MongoDB 进 程 突然 被 终止 ， 而 日 志 中 又 没有 出 现 错误 或 退出 信 
上 息 ， 则 应 检查 /varvlog/messages 〈 或 内 核 记 录 这 些 内 容 的 其 他 位 置 ) ， 
查看 是 否 存 在 关于 终止 nongod 进程 的 信息 。 


如 果 内 核 因 为 过 度 使 用 内 存 而 终止 了 MongoDB 进 程 ， 则 应 在 内 核 日 志 
中 看 到 如 下 内 容 : 











kernel: Killed process 2771 (mongod ) 
kernel: init invoked oom-killer: gfp_mask=0x201d2, order=0, oomkilladj=0 


如 果 开 局 了 日 志 系 统 (journaling) ， 此 时 重启 mongod 进 程 即 可 。 如 没 
有 开局 日 志 系 统 ， 则 应 恢复 备份 ， 或 重新 与 副本 进行 同步 。 


当 系 统 没 有 交换 空间 ， 并 且 可 用 内 存 开 始 减少 时 ，OOM killer 就 会 变 得 
尤为 敏感 ， 因 此 为 避免 麻烦 ， 不 妨 配置 适 当 的 交换 空间 。MongoDB 应 
不 会 用 到 该 交换 空间 ， 但 这 可 让 OOM Killer 放 松下 来 。 





如 果 OOM killer 终 止 了 一 个 mongos 进 程 ， 重 启 它 即 可 。 
23.5.3 ”关闭 定期 任务 


检查 是 否 存在 计划 任务 或 后 台 进 程 ， 它 们 可 能 定期 被 激活 并 消耗 系统 资 
源 ， 比 如 软件 包 管 理 器 的 目 动 更 新 。 这 些 程序 被 激活 后 会 消耗 大 量 的 内 
en 然后 又 消失 不 见 。 我 们 不 会 希望 在 生产 服务 器 上 见 到 这 
些 东西 。 





附录 A 安 冯 MongoDB 


MongoDB 的 二 进 制 文件 可 用 于 Linux、Mac OS X、Windows 和 Solaris 系 
统 。 这 意味 着 在 大 部 分 平台 中 ， 均 可 从 
http://www.mongodb.org/downloads 下 载 一 份 代 码 ， 解 压 并 运行 二 进 制 文 








MongoDB 的 运行 需要 一 个 目录 来 写 入 数据 库 文件 ， 并 需要 一 个 端口 来 
监听 连接 。 本 节 我 们 将 学 习 MongoDB 在 Windows 和 非 
Windows (Linux、Max、Solaris) 两 种 操作 系统 上 的 安装 过 程 。 


提 及 “安装 MongoDB” 时 ， 我 们 通常 指 的 是 对 mongod 进 行 配 置 。mongod 
是 核心 数据 库 服 务 器 ， 可 作为 独立 服务 器 或 副本 集成 员 。 大 多 时 候 ， 
mongod 是 我 们 使 用 的 MongoDB 进 程 。 





A.1 选择 一 个 版 本 


MongoDB 所 使 用 的 版 本 管理 相当 简单 : 偶数 号 为 稳定 版 ， 奇 数 号 为 开 
发 版。 例如 ， 以 2.4 开 头 的 版 本 都 是 稳定 版 ， 如 2.4.0、2.4.1、 和 2.4.15。 
以 2.5 开 头 的 则 是 开发 版 ， 如 2.5.0、2.5.2 和 2.5.10。 接 下 来 我 们 以 2.4 和 
2.5 版 本 为 例 ， 来 演示 版 本 变化 的 时 间 线 。 


1. 


2. 


ph 


8. 








MongoDB2.4.0 发 布 。 这 是 一 项 重大 发 布 (major release) ， 有 大 量 
的 更 新 日 志 (changelog) ; 

开发 者 在 开始 着 手 开 发 2.6 版 本 《下 一 个 重大 发 布 的 稳定 版 本 ) 

后 ， 发 布 了 2.5.0 版 本 。 这 是 新 的 开发 分 文 ， 与 2.4.0 版 本 很 相似 ， 但 
可 能 包含 一 两 个 额外 的 特性 ， 也 可 能 存在 一 些 漏 洞 。 


. 随 着 开发 者 继续 增加 新 的 特性 ， 他 们 发 布 了 2.5.1 和 2.5.2 等 版 本 。 这 


些 版 本 不 应 用 于 生产 环境 中 。 


. 一 些小 的 漏洞 修复 可 能 用 于 旧 的 2.4 分 文 上 《这 一 做 法 称 状 





backport) ， 随 后 发 布 了 2.4.1、2.4.2 等 版 本 。 开 发 者 会 慎重 考虑 这 
一 做 法 。 稳 定 版 本 中 很 少 增加 新 的 特性 ， 通 常 只 进行 漏洞 修复 。 








. 在 2.6.0 达 到 所 有 重大 既定 目标 后 ， 版 本 2.5.7《 或 任何 最 新 的 开发 版 


本 ) 就 会 变 为 2.6.0-rc0。 





. 在 对 2.6.0-rc0 进 行 大 量 测 试 后 ， 一 般 会 发 现 一 些 需要 修复 的 小 漏 


洞 。 开 发 者 修复 这 些 漏洞 并 发 布 2.6.0-rc1 版 本 。 

开发 者 重复 第 6 步 直到 没有 新 的 明显 漏洞 ， 然 后 2.6.0-rc2 或 任何 此 
时 的 最 新 版 本 ) 会 重 命名 为 2.6.0。 

从 第 1 步 重 新 开始 ， 此 时 所 有 版 本 号 增加 0.2。 


在 MongoDB 的 漏洞 奶 踪 系统 
(https://jira.mongodb.org/secure/Dashboard.jspa) 上 ， 存 在 着 核心 服务 器 
路 线 图 。 碍 看 该 路 线 图 ， 可 得 知 下 一 个 稳定 版 本 的 发 布 时 间 。 


知 在 生产 环境 中 运行 ， 则 应 使 用 稳定 版 本 。 如 计划 在 生产 环境 中 使 用 开 
发 版 本 ， 应 先 在 邮件 列表 (mailing list) 或 IRC 中 询问 开发 者 的 建议 。 


如 条 刚刚 开始 一 个 项 目的 开发 ， 使 用 开发 版 本 也 许 是 更 好 的 选择 。 在 将 
其 部 著 至 生产 环境 中 时 ， 带 有 所 使 用 特性 的 稳定 版 本 可 能 已 经 及 布 了 
MongoDB 尽 量 做 到 每 6 个 月 发 布 一 个 稳定 版 本 ) 。 然 而 ， 可 能 也 会 过 





到 一 些 系统 漏洞 ， 这 会 使 新 用 户 感到 非常 失望 ， 因 此 必须 对 此 进行 权衡 
和 取舍 。 


A.2 在 Windows 系 统 中 安装 


要 在 Windows 系 统 中 安装 MongoDB， 应 在 MongoDB 下 载 页 中 下 载 适用 
于 Windows 的 zip 压 缩 包 。 参 见 上 一 节 内 容 选 择 合 适 的 版 本 。 发 行 版 本 分 
为 Windows32 位 和 64 位 两 种 ， 选 择 与 系统 相符 的 即 可 。 点 击 链接 下 

载 .zip 文 件 并 解压 。 


现在 需要 建立 一 个 目录 ， 以 便 MongoDB 能 够 写 入 数据 库 文件 。 
MongoDB 默 认 尝试 使 用 当前 驱动 器 的 \data\db 目 录 作 为 其 数据 目录 〈 例 
如 ， 如 在 C: 下 运行 nongod， 则 会 使 用 C:vdatavdb) 。 可 在 文件 系统 中 的 
任何 位 置 建立 这 一 目录 或 其 他 空 目录 。 如 不 使 用 datavdb 目 录 ， 则 需 在 
启动 MongoDB 时 指定 路 径 ， 具 体 做 法 马上 就 会 讲 到 。 


既然 书 经 有 了 数据 目录 ， 则 应 打开 命令 提示 符 〈cmd.exe) 。 定 位 到 解 
压 后 的 MongoDB 二 进 制 文件 所 在 目录 ， 然 后 运行 : 


$ binxmongod ,exe 








如 使 用 C:\data\db 以 外 的 目录 ， 需 使 用 --dbpath 参 数 指定 其 位 置 : 


$ bin\mongod.exe --dbpath C:\Documents and Settings\Username\My Documents\db 


第 20 章 介绍 了 更 多 的 常用 选项 。 也 可 运行 hongod.exe - -help 来 查看 所 有 
选项 。 

作为 一 个 服务 安装 

MongoDB 也 可 作为 Windows 的 一 个 服务 〈service) 安装 。 只 需 以 全 路 径 
运行 ， 避 免 空 格 ， 并 使 用 - -instal1 选 项 ， 即 可 完成 安装 。 例 如 : 


$ C:\mongodb-windows-32bit-1.6.0\bin\mongod.exe 
--dbpath "\"C:\Documents and Settings\Username\My Documents\db\"" --install 





之 后 就 可 以 使 用 控制 面板 来 局 动 和 停止 MongoDB 服 务 。 


A.3 在 POSIX 系 统 (Linux、Mac OS X、 
Solaris) 中 安装 


依据 A.1 节 的 内 容 ， 选 择 MongoDB 的 版 本 。 前 往 MongoDB 下 载 页 ， 选 择 
适合 操作 系统 的 版 本 。 


-Sy 


1 如 使 用 的 是 Mac 系 统 ， 应 检查 系统 是 32 位 的 还 是 64 位 


的 。Mac 对 于 版 本 的 要 求 十 分 严格 ， 如 版 本 选择 错误 ， 则 会 拒绝 启 
动 MongoDB， 并 给 出 令 人 不 解 的 错误 信息 。 可 点 击 左 上 和 角 的 苹果 

标志 ， 选 择 关 于 该 台 Mac (About This Mac) 选项 ， 检 查 操 作 系 统 
版 本 。 


必须 创建 一 个 目录 以 便 数据 库 写 入 文件 。 数 据 库 会 默认 使 用 /data/db 上 日 
录 ， 也 可 指定 其 他 目录 。 如 建立 了 默认 目录 ， 则 应 确保 拥有 正确 的 写 权 
限 。 可 通过 如 下 命令 ， 创 建 目 录 并 设置 权限 : 


$ mkdir -p /data/db 
$ chown -R $USER: $USER /data/db 





如 有 必要 ， 可 使 用 mkdir ” -p 命 令 ， 建 立 指定 目录 及 其 所 有 父 目 录 ( 例 
如 ， 如 果 /data 目 录 不 存在 ， 则 会 先 建立 /data 目 录 ， 然 后 再 建立 /data/db 
目录 ) 。 使 用 chown 命 令 ， 可 改变 /data/db 的 所 有 权 ， 以 便 实现 用 户 对 其 
的 写 入 。 当 然 ， 也 可 在 home 文 件 夹 中 建立 一 个 目录 ， 并 在 启动 数据 库 
时 指定 其 作为 MongoDB 的 数据 目录 ， 从 而 避 开 权限 问题 。 





将 从 http:/www.mongodb.org 下 载 的 .tar.gz 文 件 解压 缩 。 


$ tar zxf mongodb-linux-i686-1.6.0.tar.gz 
$ cd mongodb-linux-i686-1.6.0 


现在 可 局 动 数 据 库 : 


$ bin/mongod 


如 果 想 改变 数据 库 的 位 置 ， 可 使 用 --dbpath 选 项 指定 位 置 : 


$ bin/mongod --dbpath ~/db 





有 关 最 凋 用 的 选项 内 容 ， 可 参见 第 20 章 中 的 内 容 。 也 可 运行 mongod 
help 来 在 看 所 有 选项 。 


使 用 包 管 理 器 安装 


这 些 系统 中 存在 很 多 包 管 理 器 ， 可 用 于 MongoDB 的 安装 。 如 选择 使 用 
包 管 理 器 进行 安装 ， 可 选择 RedHat、Debian 和 Ubuntu 系统 提供 的 官方 安 
装 包 ， 以 及 其 他 系统 提供 的 非 官方 安装 包 。 如 选择 使 用 非 官方 版 本 ， 应 
确保 使 用 的 版 本 相对 较 新 。 


OS X 系 统 提 供 有 Homebre 和 MacPorts 两 种 非 官 方 安装 包 。 如 选择 
MacPorts 版 本 ， 请 注意 : 它 会 耗 时 若 于 小时 编译 所 有 的 Boost 库 ， 这 是 安 
装 MongoDB 的 必 备 前 提 。 开 启 下 载 后 就 去 睡觉 吧 。 


无 论 使 用 哪 种 包 管 理 器 ， 都 应 先 明 确 MongoDB 的 日 志 〈log) 文件 位 
置 ， 而 不 要 等 到 出 现 问 题 后 才 去 找 它 们 。 确 保 在 发 生 任 何 可 能 的 问题 
前 明志 已 保存 完好 3 











附 孙 B 深入 MongoDB 


高 效 地 使 用 MongoDB， 并 不 需要 对 MongoDB 的 内 部 机 理 有 深入 的 了 
解 。 但 相关 工具 的 开发 者 、 代 码 贡 献 者 ， 或 单纯 想 知 其 所 以 然 的 人 ， 可 
能 会 对 此 感 兴趣 。 本 附录 包括 一 些 相 关 的 基本 内 容 。 可 


在 https:/github.com/mongodb/mongo 处 得 到 MongoDB 的 源 代码 。 





B.1 BSON 


MongoDB 中 的 文档 是 一 个 抽象 概念 ， 文 档 具 体 的 存在 形式 取决 于 使 用 
的 驱动 程序 和 编程 语言 。 因 为 文档 被 广泛 应 用 于 MongoDB 的 通讯 ， 
此 还 需要 一 种 由 MongoDB 和 生态 系统 里 所 有 驱动 程序 、 工 具 和 进程 共享 
的 文档 。 这 种 文档 格式 叫做 Binary JSON 二进制 JSON〉， 或 称 
BSON 〈 没 人 知道 其 中 的 J 去 哪 了 ) 。 


BSON 是 一 种 轻 量 的 二 进 制 格式 ， 可 用 一 串 字 节 来 摘 述 任何 MongoDB 文 
数据 库 能 够 理解 BSON 格 式 ，BSON 也 是 文档 存放 于 磁盘 中 的 格 

工 No 

驱动 程序 在 使 用 文档 进行 插入 、 查 询 或 其 他 操作 时 ， 会 先 将 文档 编码 成 
BSON 格 式 ， 然 后 发 送 给 服务 器 。 同 样 地 ， 服 务 器 将 文档 返回 给 客户 端 
时 ， 也 是 以 BSON 格 式 进 行 的 。 张 动 程序 会 先 对 此 BSON 数 据 进 行 解 
码 ， 然 后 再 发 送 给 客户 端 。 


BSON 格 式 主要 有 以 下 三 大 优点 。 








高 效 

BSON 可 高 效 描述 数据 ， 而 无 需 占用 过 多 额外 空间 。 在 最 坏 的 情况 
下 ， 其 效率 比 JSON 低 一 点 。 而 在 最 好 的 情况 下 《如 存储 二 进 制 信 
县 或 大 数据 时 ) ， 其 效率 要 高 出 JSON 很 多 。 


可 过 历 性 

在 有 些 情况 下 ，BSON 以 空间 效率 为 代价 ， 使 自身 更 容易 被 如 历 。 

例如 ， 字 符 串 值 会 被 加 上 一 个 前 级 用 以 表示 长 度 ， 而 不 是 依赖 于 中 
止 符号 来 判断 字符 的 末尾 。 这 一 特性 在 MongoDB 服 务 器 需 对 文档 

进行 内 省 (introspect) 时 十 分 实用 。 

高 性 能 

最 后 ，BSON 可 快速 进行 编码 和 解码 。 它 使 用 类 C 类 型 表示 ， 这 在 

大 部 分 编程 语言 中 可 快速 运作 。 

















如 需 了 解 BSON 的 详细 规范 ， 请 查看 http://www.bsonspec.org。 


B.2 线路 协议 


驱动 程序 使 用 一 个 轻 量 的 TCP/IP 线 路 协议 (wire protocol) 来 访问 
MongoDB 服 务 器 。 可 在 MongoDB 的 wiki 页 面 找 到 该 协议 的 文档， 但 其 

基本 上 残 是 对 BSON 数 据 进 行 了 简单 的 包装 。 例 如 ， 一 个 表示 插入 文档 
的 消息 包含 了 20 字 节 的 头 信 息 《〈 其 中 包括 告知 服务 器 执行 插入 操作 的 代 
码 以 及 消息 的 长 度 ) 、 被 插入 的 集合 名 称 和 插入 的 BSON 文 档 列 表 。 


B.3 数据 文件 


在 MongoDB 数 据 目 录 〈 默 认 下 是 /data/db/) 中， 每 个 数据 库 都 对 应 若干 
文件 。 每 个 数据 库 都 拥有 一 个 单独 的 扩展 名 为 .ns 的 文件 和 几 个 数据 文 
件 ， 这 些 数 据 文件 以 单调 增长 的 数字 为 扩展 名 。 于 是 ， 名 为 foo 的 数据 
库 会 被 存储 在 foo.ns、foo.0、foo.1、foo.2 等 文件 中 。 


每 个 数据 文件 的 大 小 是 前 一 个 文件 大 小 的 二 倍 ， 直 到 达到 最 大 值 2 GB。 
这 一 特性 使 得 较 小 的 数据 库 不 会 浪费 过 多 的 磁盘 空间 ， 而 较 大 的 数据 库 
可 使 用 连续 的 磁盘 空间 。 


MongoDB 也 会 预 分 配 数据 文件 ， 以 保证 性 能 稳定 《使 用 - -noprealloc 选 
项 可 关闭 这 一 特性 ) 。 预 分 配 在 后 台 运 行 。 数 据 文 件 一 旦 被 填 满 ， 就 会 
开始 进行 预 分 配 。 这 意味 着 MongoDB 服 务 器 总 会 为 每 个 数据 库 维护 一 
个 额外 的 空白 数据 文件 ， 以 避免 文件 分 配 失 败 。 








B.4 命名 空间 与 区 段 


在 数据 文件 中 ， 数 据 库 被 按照 命名 空间 Cnamespace) 进行 组 织 ， 每 个 
命名 空间 中 存放 有 特定 集合 的 数据 。 集 合 中 的 文档 和 索引 都 拥有 自己 的 
命名 空间 。 命 名 空间 的 元 信息 (metadata) 存放 在 数据 库 的 .ns 文件 中 。 


每 个 命名 空间 中 的 数据 在 磁盘 上 会 被 分 为 儿 组 数据 文件 ， 即 区 段 - 


es 图 B-1 中 名 为 foo 的 数据 库 有 三 个 数据 文件 ， 其 中 第 三 
预 分 配 的 空 文件 。 而 前 两 个 数据 文件 ， 则 分 成 了 分 属于 不 同 命名 空 0 


区 段 。 

















foo.1 | | 医 加 foo.test 
00000000000 医 玛 hoe 
00000000000 Lj Nol 
00000000000 | foosfreelist 
00000000000 ei i 分配 空 间 


fo0.2 因 oolelololololellole 
00000000000 
00000000000 
00000000000 





图 B-1 命名 空间 与 区 段 


图 B-1 中 显示 了 几 点 有 关 命 证 名 空间 和 区 段 的 有 趣 内 容 。 每 个 命名 空间 可 
拥有 几 个 不 同 的 区 段 ， 这 几 个 区 段 在 磁 往 上 不 见得 一 定 是 连续 的 。 就 像 
数据 库 的 数据 文件 一 样 ， 为 命名 空间 新 分 配 的 区 段 ， 其 大 小 也 会 不 断 增 
二 和 命名 空间 会 痕 费 一 定 的 空间 ， 又 要 尽量 保证 其 在 磁盘 上 占有 一 个 连 
续 的 区 域 ; 这 样 做 是 为 了 在 二 者 之 间 取 得 平衡 。 图 中 还 出 现 了 一 个 特殊 
的 命 8 名 空间 $freelist， 用 于 跟踪 记录 不 再 使 用 的 区 段 〈 如 被 删除 的 集 
合 或 索引 所 使 用 的 区 段 ，。 命 名 空间 在 分 配 一 个 新 区 段 时 ， 会 先 搜索 空 














闲 列表 ， 碍 看 是 人 否 存在 合适 大 小 的 区 段 。 


B.5 内存 映射 存储 引擎 


MongoDB 默 认 的 (也 是 此 书写 作 时 唯一 支持 的 ) 存储 引擎 ， 是 一 个 内 

存 映 射 引 擎 。 服 务 器 局 动 时 ， 其 内 存 对 所 有 数据 文件 进行 映射 。 接 下 来 
就 由 操作 系统 负 员 将 数据 刷新 到 磁盘 ， 以 及 省 理 内 存 中 的 数据 页 交换 。 

该 存储 引擎 有 以 下 几 个 重要 特性 : 








。 MongoDB 中 负责 管理 内 存 的 代码 数量 少 且 干净 ， 因 为 大 部 分 相关 
工作 已 交 由 操作 系统 解决 ; 

。 MongoDB 服 务 器 进程 占用 的 虚拟 内 存 通常 很 大 ， 超 过 整个 数据 集 
0 。 这 是 可 以 接受 的 ， 因 为 操作 系统 会 处 理 内 存 中 的 常 驻 内 存 

。 32 位 的 MongoDB 服 务 器 在 使 用 内 存 方面 有 所 限制 ， 每 个 mongod 最 
人 GB 内 存 。 这 是 因为 所 有 的 数据 都 必须 是 在 32 位 下 可 

。 本 书 由 “ 行 行 ?整理 ， 如 果 你 不 知道 读 什么 书 或 者 想 获 得 更 多 免费 电 
子 书 请 加 小 编 微 信 或 QQ: 491256034 小 编 也 和 结交 一 些 喜欢 读书 的 
朋友 或 者 关注 小 编 个 人 微 信 公众 号 id: d716-716 为 了 方便 书 友 朋 友 
找 书 和 看 书 ， 小 编目 己 做 了 一 个 电子 书 下 载 网 站 ， 网 址 : 
www.ireadweek.com QQ 和 群 : 550338315 


术语 
这 些 都 是 比较 确定 的 术语 名 称 ， 如 果 其 他 音节 与 这 里 不 一 致 ， 以 这 个 文 
件 中 的 术语 为 准 。 


Secondary Index => 二 级 索引 
Range Query => 范围 查询 
Aggregation => 聚合 

Geospatial Index => 地 理 空间 索引 
Document-Oriented => 面 癌 文档 的 
row => 行 

document => 文档 

Predefined Schema => 预定 义 模式 
Key => 键 

Value => 值 

Scale Up => 纵 同 扩展 

Scale Out => 横 癌 扩展 

Aggregation Pipeline => 聚合 管道 
Pipeline => 管道 

session => # 非 常 通用 的 术语 ， 不 译 
File Storage => 文件 存储 

Join => 联接 

Multirow Transaction => 多 行事 务 
Dynamic Padding => 动态 填充 
Cache => 绥 存 

Relational Database Management System => 关系 型 数据 库 管 理 系统 
Dynamic Schema => 动态 模式 

disk seek => 人 磁盘 寻 道 

query document => 查询 文档 

stdout => 标准 输出 

acknowledged wirte => 应 答 式 写 入 
unacknowledged wirte => 非 应 答 式 写 入 


如 果 你 不 知道 读 什 么 书 ， 


就 关注 这 个 微 信 号 。 


> 


众 写 名 称 ， 幸福 的 味道 


公众 号 ID: d716-716 


小 编 : 行 行 : 微 信 号 : 491256034 

为 了 方便 书 友 朋友 找 书 和 看 书 ， 小 编 自 己 做 了 一 个 电子 书 ” ”下载 网 站 ， 
网 址 : www.ireadweek.com QQ 群 : 550338315 小 编 也 和 结交 一 些 喜欢 读 
书 的 朋友 


“ 才 福 的 味道 ”已 提供 120 个 不 同类 型 的 书 单 


1、 25 岁 前 一 定 要 读 的 25 本 书 

2、 20 世 纪 最 优秀 的 100 部 中 文 小 说 

3、 10 部 豆 办 高 评分 的 温情 治愈 系 小 说 

4、 有 生 之 年 ， 你 一 定 要 看 的 25 部 外 国 纯 文学 名 著 
5、 有 有生之年， 你 一 定 要 看 的 20 部 中 国 现 当代 名 著 
6、 美国 亚马逊 编辑 推荐 的 一 生 必 读书 单 100 本 
7、 30 个 领域 30 本 不 容错 过 的 入 门 书 

8、 这 20 本 书 ， 是 各 领域 的 医 峰 之 作 

9、 这 7 本 书 ， 教 你 如 何 高 效 读书 





10、 80 万 书 虫 力 荐 的 “给 五 星 都 不 够 ”的 30 本 书 


关注 “幸福 的 味道 ? 微 信 公众 号 ， 即 可 得 看 对 应 书 单 


如 果 你 不 知道 读 什 么 蔬 ， 就 关注 这 个 微 信 号 。 
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